1. 什么是假设检验?
其实也就是我们最常提到的一个核心概念,即原假设(H0)和备择假设(H1)。
先用抛硬币来举个栗子。如果说硬币的铸造情况没问题的话,我们常规的认知是硬币的“正面”和“反面”出现的概率应该是差不多的,如0.5比0.5。
但是,这里有一个问题。假如我拿着硬币连续投掷了几轮,第一轮我投了2次,两次都是“正面”,第二轮我投了4次,四次还是“正面”,第三轮我投了八次,八次都是“正面”。所以,我可以得出一个结论,这个硬币可能有问题。因为比率不是0.5比0.5。
其实,我们刚才描述的现象就可以理解为假设检验:
· 我假设这个硬币没有问题,即“正面”和“反面”出现的概率几乎一样。其实这就是原假设H0。
· 我检验了一下对这个硬币的假设:扔了三轮,而且每轮扔了不止一次,但是每轮当中的每次都是“正面”。我通过检验发现原来的假设有问题,所以我推翻了原假设。这就是科学理论中的证伪法(也是逻辑学中的不完全归纳逻辑推理中的其中一种办法)。
2. p-value
为了完善和更加合理化这个假设检验,再提出一个概念:p-value。
我们现在把刚才提出的假设检验再次拿出来:
· 假设:硬币没有问题
· 检验:认为假设成立,然后通过投掷硬币的方式去验证我的原假设是否为真
现在,如果硬币的铸造没有问题,那么正反面出现的概率应该符合二项分布。简单看公式的话:X ~ B(n, μ),其中n代表硬币投掷次数,μ代表其中一种结果的概率。
注:在概率论和统计学中,二项分布(Binomial distribution)是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1时,二项分布就是伯努利分布。二项分布是显著性差异的二项试验的基础。
不同参数下的二项分布情况(下图)。
在硬币的铸造没有问题的情况下,扔10次硬币的结果应该可以这样表示:
X ~ B(10, 0.5) 如下图,假如硬币没有问题的话,概率分布如下:
假设扔了十次之后得到的结果有八次正面:
现在我们来说p-value的概念:现在把八次正面的概率,九次正面的概率还有十次正面的概率加起来,如下图所示:
此时我们得到便是(单尾p值,也可以说单侧p值):
p-value=P(8≤X≤10) = 0.05
第二种情况,出现两次正面、一次正面、零次正面的概率也是很极端的:
所以,双尾p值(双侧p值):
p-value=P(0≤X≤2) + P(8≤X≤10) = 0.1
2.1 为何要把极值情况加起来?(其实这里涉及到了一点点微积分的概念,因为微积分更多计算的是连续值的情况,这里其实是离散值的情况,用微积分的概念只是更加好理解一些)
比如,我要扔1000次的硬币来测试原假设是否正确。但是我们用二项分布来计算会比较麻烦,根据中心极限定理,我们可以用正态分布来近似(逻辑学的类比推理):
注:大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布问题。而中心极限定理说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。此处要说明的是,中心极限定理是概率论中最著名的结果之一。它提出,大量的独立随机变量之和具有近似正态的分布。因此,它不仅提供了计算独立随机变量之和的近似概率的简单方法,而且有助于解释为什么有很多自然群里的经验概率呈现出钟型(即正态)曲线这一事实,因此中心极限定理这个结论是正态分布在数理统计中有很重要的地位,也使得正态分布有了广泛的应用。
上面这张图就是模拟1000次投掷硬币的概率分布图。假设我得到了530次正面,用正态分布来计算就会比较方便。但是,对于正态分布,没有办法计算单点的概率(连续分布的单点概率为0),所以只能取一个区间来计算极限,所以就取530、以及更加极端的点组成的区间,并计算其面积:
注:二项分布与正态分布的区别,如果单从数学的角度去看的话,二项分布为独立离散型数据,而正态分布是连续性数据,所以当我们把二项分布转化为正态分布并计算累计概率的话,其核心逻辑虽然还是相加的概念,但是对于连续型数据,我们会更加偏向于使用微积分的理念去计算累计概率(因为单点的斜率,如果不适用极限概念是无法计算的,即无限趋近于0),所以我们会说对于正态分布来说,其单点概率为0,这个说法其实欠妥,但是用微积分的理念去思考则会迎刃而解。
回到正文部分,首先,无论是取单侧还是双侧,即我们所说的单尾检验还是双尾检验,都取决你的应用领域;其次,极值的区域你到底如何决定,也取决你的应用领域。如果用硬币来说的话,到底是530?540?560?甚至是900?取决你对原假设检验的严厉程度,换句话说,极值情况越苛刻,你对原假设验证后的真伪便更加可信,也就是我们所说的置信度或置信区间。
3. 显著水平
接上面我们所说的置信度或置信区间,我们依旧拿硬币来说事。假设我还是用投掷10次来检验硬币的公平情况,那么当我看到出现7次“正面”,还是9次“正面”,甚至是10次“正面”,才会得出“这个硬币有问题”的结论。其实这是一个非常主观的设定情况。
现在提出一个标准:当p-value≤0.05时,就可以认为原假设是有问题的。注意,这里再次提醒,p-value不是一个单点概率值,而是一个累计值,用二项分布来计算的话就是将各种独立事件发生概率相加,用正态分布来计算的话,其实就是微积分的算法算出面积。其核心理念一样,没有任何区别。
而提出的这个0.05的标准就是所谓的显著水平,当然刚才也说到了,到底选择多少是一个主观选择。根据领域不同,和显著水平的要求不同,这个“0.05”不具备任何参考标准,完全因人而异,具体情况具体分析。
比如,文中一直提及的“硬币游戏”,如果我们取单侧p值来检验显著水平(其实单尾检验就够了,这里就不过多解释了),那么根据计算,扔10次出现9次正面:
p-value=P(9≤X≤10)=0.01≤0.05
用图形进行可视化解释,就是这样:
现在可以认为刚开始的假设错误很“显著”,也就是“硬币是不公平的”。
如果扔10次出现8次正面:
p-value=P(8≤X≤10)=0.05=0.05
而这个算出来的结果和显著水平设置值是相等的。我们其实也可以认为原假设有问题,而拒绝它,只是错误的不是那么“显著”。
这里说一个至今仍然还有很多人纠结的问题:
为什么在硬币游戏里,p值是极端情况下的概率,那为什么p值越小越要拒绝原假设?如果假设硬币是公平的话,那么极端情况出现的概率不是越小越好吗?
先一句话总结,小概率不可能原理,如果p<0.05,那么原假设就是小概率事件,那么不可能发生的,所以要拒绝它,即硬币不公平。
说复杂一点:
首先这个取决于你的原假设到底是什么?一般情况下,我们的原假设都是一个全称肯定命题(参考逻辑学内容)。即硬币是公平的。然后p值是在原假设成立的情况计算出来的。并不是极端情况出现的概率越小越好,此处一定不要忘记你是在假设硬币没有问题的时候算出来的一个概率值,然后你拿这个概率值去和你做实验的概率值去相比。如果你没有观察到发生的事情(即小概率事件),说明你可以不拒绝原假设,但是也不可以说原假设一定成立;如果你通过实验观察到了小概率事件,那么意味着你的原假设有问题,此时需要拒绝原假设,或者说明你的原假设有问题。
或者说,这件事发生的概率很小,但是被我做到了或者被我观察到了,因为p-value越小说明它出现的概率越小。根据小概率事件原理,小概率的事情是不应该出现的。
抛10次硬币,出现8次或8次以上的概率之和为p-value。在假设硬币公平的情况下,计算出来的p-value应该非常小。因为这是极端情况,对于一个公平硬币来说,这种结果居然在实验中出现了,所以这个硬币不公平。因为极端情况是极小概率下才会发生的。关键点:我们计算的实际是正常情况下极端事件发生的概率之和p-value,它本来就应该很小。而现在它在那么小概率的情况下(通常小于0.05)发生了。所以拒绝原假设。
而这个显著水平其实也就是一个概率的合计值,那么到底是0.01还是0.05取决你想设定的极端事件能够观测到的一个边界值到无穷大的累计概率值。
我们现在拿最简单的例子再来解释一遍:
比如扔10次硬币,如果硬币公平:
10次正面概率为0.0009765625 9次正面概率为0.00977 8次正面概率为0.04395
7次正面概率为0.11719 6次正面概率为0.20508 5次正面概率为0.24609
4次正面概率为0.20508 3次正面概率为0.11719 2次正面概率为0.04395
1次正面概率为0.00977 0次正面概率为0.0009765625
假设我现在假设看到7次正面就觉得这个硬币有问题:
那我就要把7,8,9,10的概率加起来才叫p值
p-value=0.11719+0.04395+0.00977+0.0009765625=0.171916563
我们会发现能观察到这几个现象的概率还是挺大的。
假设我现在假设看到8次正面就觉得这个硬币有问题:
那我就要把8,9,10的概率加起来才叫p值
p-value=0.04395+0.00977+0.0009765625=0.054726563
现在我们会发现观察到这几个现象的概率开始变小了。
所以对于一个正常的硬币来说,我们不太可能看到这样的概率值,如果概率小于以上的累计极限概率区间,说明事件发生了,说明它落在了区间里面,如下图所示:
这意味着你认为是小概率的事情发生了(注意这里并不说明概率越小越好,而是恰巧说明你认为的小概率事件恰恰发生了),这就说明你的原假设有问题,因为一个公平的硬币是不太可能发生这种情况的,但是这也取决于你设定的显著水平。这其实就和证伪法有关系了,但是证伪思维在本文不拓展。