201402221453p-value、顯著水準、Type I error, Type 2 error
【重點】:p-value越小,H0越不可能為真。(p為在H0為真的前提下,能得到這批樣本的機率)(p值越小,棄卻H0的理由越充分)
在討論p-value之前,先釐清「顯著水準」a的觀念。「顯著水準」是我們在進行檢定時,願意容許type I error發生的機率上限(第一型錯誤:檢定結果reject了真實的H0)。
type I error:在【H0為真】的情況下(實際上,我們無法知道H0是真是假,因此才會用機率來表示對錯的可能),檢定結果卻拒絕H0,這種錯誤就是型一錯誤(口訣:type 1 error = 拒絕了真的H0,可能性是 a)。
type II error:在【H0為偽】的情況下(同樣的,實際上我們還是不知道H0為真為假的),檢定結果卻接受H0,這種錯誤就是型二錯誤(口訣:type 2 error = 接受了假的H0, 可能性是b)。
type I error (a)
|
|||
type II error (b) |
Null hypothesis(零假說、虛無假設、H0):通常,檢定會希望棄卻H0,就是希望觀測到的樣本足以棄卻虛無假設。樣本棄若卻虛無假設,就是支持對立假設(Alternative hypothesis)。所以建立假設時的技巧是:將希望得到確認的結論寫成對立假設,反面則為虛無假設H0=希望棄確的假設。這也是H0之所以名為虛無假設的緣由。要知道:通常實務上,我們真正希望得到的是:棄卻虛無假設而接受對立假設。虛無假設通常是設計要棄卻的假想目標。
p-value 的定義是:在已知(現有)的抽樣樣本下,能棄卻 H0(虛無假設)的最小顯著水準。
或(倒過來)說:
p-value:(前提)若 H0 為真,則 test statistics 出現的可能性。(若p-value越小,表示抽樣樣本越(極端)不可能出現,因此推翻前提,棄卻H0)。
也有另一種(應用的)講法::
p-value:以現有的抽樣所進行的推論,可能犯 type I error 的機率。(若p-value越小,表示棄卻H0不太可能錯,因此棄卻H0)。
-----------------------------------------------------------------
在實務上,我們用(實驗觀察到的)p-value來和(設定希望的)a做比較,做出推論的結果。
The p-value always means the probability that the observed test statistic (which is calculated based on your specific observations) would be as extreme as observed (or more extreme), if the null hypothesis were true.
因此,越小的p-value表示:當前所得觀察結果,在H0為真之情況下,是越不可能出現的。
但既然出現了,因此而推論H0為真之可能極小,故棄卻H0。換句話說:已知樣本(既然出現了,若其)p-value越小,表示要H0為真的可能極小,應棄卻H0。
So, a small p-value means that the observed result is highly unlikely if the null hypothesis were true. Consequently, we conclude (since we do observe this result) that the null hypothesis is unlikely to be true, and reject it.
Conclusion (disregarding other issues with your data and multiple testing correction): for the tests where the p-value is below a certain threshold (typically 0.05), we conclude that the median difference is significantly different from 0. For the others, we have no proof that it is significantly different (but it might still be in the population).
p值,簡單說:(不要忘記,前提是H0為真時)檢測到樣本,有多大的可能僅僅是由於機率的原因所造成。當p值很小,表示若H0為真,則手上得到的是一組極端偏激誤導的樣本,所以H0有可能是錯的,應棄卻H0。換句話說:
p值是棄卻H0而出錯的機率(和a意涵相近)。p<0.05 的意思就是指檢定結果有小於5%的可能是由於機率(無法控制的巧合)所造成。
----------------------------------------------
再深入思考:以p-value所揭示關於樣本的訊息,用意何在?
一樣,簡單【重點】先:p值常用來作為設定(接受/拒絕虛無假設)顯著水準的依據。
觀察和蒐集data是花錢的;花了錢不想只得到棄卻/接受H0的結論;
還想深入了解樣本離棄卻或接受H0多遠。或者,觀察(抽樣或實驗)做了,就得到資料,其實也不必要做出棄卻/接受的結論,
從蒐集的資料得到p-value,讓你(的老闆)自己選擇要多大的顯著水準(定自己想要的顯著水準,自己決定要棄卻/接受H0)。
通常檢定時,得先決定一個顯著水準, 才能以此定出棄卻域。
【顯著】意謂著:以觀察或實驗所得的樣本來看,只有極小的可能性(a或p)是由於隨機(巧合)所造成(的錯誤)。
但顯著水準該取多少卻也是一個問題!(實務上,重點是:成本的考慮)大家對顯著水準的要求不一,太高太低,依需求及狀況不同而異,見仁見智(希望a越小通常要花越多錢,當你要求完美到a=0,就是做普查不做假設檢定了)。
所以,根據(在預算內做完實驗的)現有樣本把能棄卻 H0 的(最小)顯著水準(p-value),就是現有樣本下棄卻 H0 的type I error標示出來,讓使用者自己抉擇,要冒多大的風險來下結論,在實務上是不錯的做法。
也就是說:你既然已經做完實驗觀測了,那就根據你的觀測所得的樣本,我把p-value告訴你。然後你就可以自己決定:你要多大的顯著水準。也就是:你可以先知道在已知樣本下,要棄卻H0的最小顯著水準是多少,然後你再斟酌訂出符合你需求的顯著水準大小。若覺得風險太高那就再投錢增加樣本了。
顯著水準若愈小,則棄絕域也就愈小。顯著水準若愈大,則棄絕域也就愈大。
p-value標出(此樣本下)棄卻 / 接受H0的臨界點 。也就是呈現樣本支持或反對虛無假設的程度。p-value 值表示的是:根據已知的樣本,能棄絕 H0 的最小顯著水準。其用意:在呈現樣本支持或反對虛無假設的程度,以做為實務上決定顯著水準時之參考。
若希望棄卻 H0, 則可採比p-value大的顯著水準。(讓a>p,使抽樣樣本落於棄卻域內)
若希望接受 H0, 則可採比p-value小的顯著水準。(讓a<p,當a很小,抽樣樣本不會落在拒絕區裡面)
以範例來看,會更易於理解。
【範例】便利商店經理根據財務分析,認為若顧客平均每次消費金額高於$170,發行NFC卡將可以獲利。假設每次消費金額是常態分佈,標準差為$65。
現以400人進行取樣,發現樣本算術平均數(sample mean)為$178。
便利商店經理是否能夠推論發行NFC卡可以獲利?
我們想要檢定的假設是H1: μ>170
因此,null hypothesis要設為H0: μ<=170
若我們設定 H0: μ=170,也可以達到和上式相同的結論,而這樣的設定的好處是我們可以直接以母群體算術平均數為μ來進行計算,因此實際上我們設定的null hypothesis會只取等式的部份,以此例為H0: μ=170
主要有2種方式可以進行假設檢定:
1. rejection region method
2. p-value approach
Rejection Region
若檢定統計量(test statistic,舉例來說,樣本算術平均數)落在 rejection region,我們會決定 reject the null hypothesis in favor of the alternative。
見上圖,以此例而言,rejection region為,其中
為樣本算術平均數。
根據 Type I error 的定義,可推導出
α = P(rejecting H0 given that H0 is true)
= P( given that H0 is true)
若便利商店經理設定 α 為 5%,則 zα = 1.645,因此
因此 rejection region 為 > 175.34
由於抽樣的平均值=178,落在 rejection region,結果 reject the null hypothesis,因此根據樣本資料有足夠的證據可推論 alternative hypohesis: μ>170 為真。
p-Value Approach
p-value是在假設 null hypothesis 為 true 的前提下,觀察到檢定統計量 (test statistic) 比取樣得到的值更極端的機率。
以此例而言,
根據取樣分佈,在母群體平均值(population mean)為170的情況下,我們觀察到樣本算術平均數大於178的機率是0.0069,因為這樣的機率很低,我們懷疑假設 null hypothesis 為 true 的前提,因此我們 reject the null hypothesis,而推論 alternative hypothesis 為真。
-----------------------------------------------------------
p-value要多小,才適合棄卻null hypothesis,而推論 alternative hypothesis為真?
這要根據Type I 及 Type II error所造成的損失或成本而定。若損失成本很高,會需採愈小的顯著水準,才推論 alternative hypothesis為真。
當p-value < 0.01: there is overwhelming evidence to infer that the alternative hypothesis is true. The test is highly significant.
0.01 < p-value < 0.05: there is strong evidence to infer that the alternative hypothesis is true. The test is significant.
0.05 < p-value < 0.10: there is weak evidence to infer that the alternative hypothesis is true. The test is not statistically significant.
0.10 < p-value: there is no evidence to infer that the alternative hypothesis is true. The test is not statistically significant.
如何計算?
根據 Type II error 的定義,以前例而言,可推導出
β = P( < 175.34, given that the null hypothesis is false)
以前例而言,若顧客平均每次消費金額(μ)高於$180,發行NFC卡的獲利會很高使得便利商店經理不願意犯 Type II error,因此
β = P( < 175.34, given that μ=180)
意即如果母群體算術平均數實際上是180,錯誤地 not reject the null hypothesis 的機率是 0.0764。
Type I error和Type II error的機率之如何取捨?
Type I error 的機率 (α)和Type II error 的機率 (β)兩者之間是trade-off的關係。 若試著降低 Type I error 的機率 (α)則會升高 Type II error 的機率 (β) 。那又該如何取捨決定 Type I error 及 Type II error 的機率,應取決於 Type I error 及 Type II error 所導致的代價成本高低而定。
若不想增加Type I error 及 Type II error任一方的機率,唯有提高sample size。樣本數愈大,代表資訊愈完整,則犯錯的機率會降低,提高判斷的品質。增加樣本數才能在可以在不改變 α 的情況下,降低 β。
Alternative hypothesis 的型態對α, β也有影響:
範例中,若「決定發行NFC卡但實際上無法獲利」的代價大於「決定不發行NFC卡但實際上可以獲利」,則我們會把目標設定為證實發NFC卡可以獲利,以避免犯下代價較高的錯誤,則對立假設會設計如下:
H0: μ = 170
H1: μ > 170
反之,若「決定不發行NFC卡但實際上可以獲利」的代價較嚴重,則我們會把目標設定為證實發NFC卡無法獲利,則對立假設會設計如下:
H0: μ = 170
H1: μ < 170