上一集《找出效应大小,对耍流氓sayno!》推送后,有位读者在文章底下留言,指出「不能脱离具体业务问题谈显著性」。这位读者讲得很好,今天我们在进入正题以前,也希望利用一点篇幅向大家再次重申这一点。
我们这个栏目,从开篇第一集《你真的懂p值吗?》就提到过,统计学意义上的显著性(通常是p值很小)并不等同于实际业务意义上的显著性。两集以前的《只讲p值,不讲效应大小,都是耍流氓!》里,我们也用格格巫卖包子的几个模拟例子展示过一种情况,格格巫包子的平均质量可以和食堂规定的标准值相差微乎其微,差出来的那点儿面粉或肉连塞牙缝都不够,实际上根本没有人会在意。
但是,如果格格巫就是碰上了一个特别轴的蓝精灵,只要样本量大到一定程度,统计功效(power)就会足够大。在这种情况下,即使是那一丁点的差别也会变得在统计学上高度显著了。反过来说,如果真实的差别很大,但是我们的样本量很小,那么p值也许并不能达到显著的程度。但我们也不能因此就对所得的结果等闲视之,因为它也许暗示了有重大意义的发现。
而我们上集介绍的代表t检验效应大小的Cohen氏d值呢?它是解决上面这个问题的灵丹妙药吗?正如给我们留言的读者所说的那样,它也不是什么全能的神。不仅仅是Cohen氏d值,我们将来还会介绍代表其他检验效应大小的统计量,所有这些「效应大小」,也都是在统计学意义上讲的。究竟对于我们感兴趣的问题来说,这样的效应有没有实际意义,需要我们运用具体领域的知识和经验来判别。
(前情回顾可戳:你真的懂p值吗?只讲p值,不讲效应大小,都是耍流氓!找出t检验的效应大小,对耍流氓sayno!)
那么,我们为什么还需要Cohen氏d值这些量呢?
?它们能提供比p值更多的信息。当我们做完一个t检验,向别人报告检验结果时,这些表示效应大小的量能使他人更全面地对这个检验结果的实际意义进行解读。具体对Cohen氏d值来说,我们上集也提过,它相比起直接看均值的差别有一个重要的优点:不会受到测量单位和尺度的影响。
?正是由于这个优点,这一类统计量也成为了功效分析、荟萃分析等方法的基础。
?
我们今天要讲的正题,其实也和上面讨论的内容有很大关系。让我们回到我们最近一系列文章的核心——t检验。t检验关心的事情,是总体平均值:要么是一个平均值和某个常数有没有差别(单样本t检验),要么是两个平均值之间有没有差别(成对或独立样本t检验)。上集我们为大家详细讲述了,Cohen氏d值把平均值的差别放在分子上,而把标准差放在分母上,从而是一个融合了平均值的差异及其不确定性的量。
这么做固然好,但是也有美中不足之处。一个问题是,这样算出来的Cohen氏d值只是个「点估计」(pointestimation),它具体的精确数值其实没有特别大的意义。
这是什么意思呢?
我们还是用格格巫卖包子的例子。和以前一样,食堂规定的包子重量的标准值是50克。我们收集了一个包含10个包子的样本,它们的重量如下(单位为克):
47.9,49.8,47.2,47.4,49.6,52.7,48.1,50.3,49.1,51.8
根据这些数据,我们算出样本平均值是49.39克,样本标准差为1.84克。
那么,根据上集我们讲过的Cohen氏d值的算式:
容易得出,如果用该样本进行标准值为50的单样本t检验,我们的效应大小会是(49.6-50)/2.0=-0.。如果只看其绝对值,那么效应大小就是0.。
假设在这个样本里,第三只包子的重量从47.2克变成了47.5克,而剩下的9个包子都保持不变,那么样本的平均值和标准差也会因为这个包子而发生相应的改变,变成49.42克和1.80克。从而,效应大小也会变为0.。之所以称其为「点估计」,就是因为Cohen氏d值是一个数,也就是数轴上的一个点。
这个例子中,第三只包子重量的变化是非常微小的,由此带来的平均值、标准差和效应大小的变化也很小。即便不做t检验,从日常生活的直觉来看,我们都不会因为这样的变化而改变我们对格格巫做的包子的大致结论。
也就是说,效应大小具体是0.还是0.,其实并不那么重要——这个数的精确值很可能是产生样本时随机性的结果。与其纠结于小数点后几位,更重要的其实是它的大致范围——比方说,我们告诉你,效应大小大约在0.3和0.35之间,你就能对格格巫包子重量与标准值的偏离程度有个不错的概念了,至于说到底是0.还是0.还是0.,多数情况下其实都无关紧要。
Cohen氏d值还有一个缺陷,是与它的优点相伴相生的。还记得,在构造Cohen氏d值时,为了消除数据本身所带的单位,并且把关于平均值的不确定性的信息包含进来,我们采取了均值差除以标准差的方法。这可是一把双刃剑——单位是去掉了,但是算出来的Cohen氏d值却仿佛进入了一个陌生的世界。我们不再能像之前那样,直接说包子重量和标准值相差几克了。统计学无论浅易还是高深,说到底是要用来指导实践的,不易解读的结果会给实现这个最终目的带来额外的困难。
读到这里你也许要说,这么讲岂不是人嘴两张皮,咋说咋有理么?介绍Cohen氏d值时说要统一度量衡,现在又说还是带上原来的单位才容易解读。
公正地看,这两种做法各有利弊,并不是非此即彼的。无论我们是作为科研成果的生产者去使用各种统计学方法,还是作为消费者去判读统计分析的结果,我们都会面临这样的权衡取舍,突出了数据的某个方面,往往就要以牺牲另外的一些方面为代价。幸运的是,我们总是可以同时使用和报告多种角度,尽可能全面地描述数据的形态和特征。
?
好了,如果我们既要保留平均值原始的尺度,又要加入其不确定性的信息,应该怎么办呢?
两者相除肯定是行不通了,相加减行不行呢?答案是肯定的!假如我们有了一个点估计,再依据统计学理论找出在现有数据之下对这个点估计的不确定性大小,那么就可以用两者划定某个范围,作为我们根据已有数据对平均值的差别的估计。
上面我们讨论了Cohen氏d值这一类效应大小的点估计的两个缺点。而弥补这两个缺点的方法殊途同归——用一个范围或区间来表示效应大小及其不确定性。用统计学的术语来说,这叫做「区间估计」(intervalestimation)。而这个范围或区间本身,被称为「置信区间」(confidenceinterval)。
听起来高深,其实我们在日常生活中对这种思想早就习以为常了。比方说,现在让你猜一猜年6月1日正午12点整故宫太和殿门前的地面温度是几摄氏度。也许你会沉吟片刻掐指一算,给出一个答案:29到34度之间!为什么不说一个具体的数值,比如说31.72度呢?因为我们都很清楚,即便我们是气象学家,任何一个具体的数字恰好正确的可能性都是微乎其微的(如果实际测量可以做到无限精确,任何数字正确的概率都是0)。
但是,如果这个游戏的规则仅仅是估计的区间包含了正确答案就算对的话,你很快就会意识到,有一种必胜的办法——猜一个尽量大的范围!用不着什么地理或气象知识,我们只要说一个负度到度之类的答案,就必然错不了了。显而易见,这样的答案不能对我们的问题提供有价值的信息。
如此说来,
问题出在哪里呢?
为了帮助我们思考,我们来想象这样一个例子。大家小时候应该都玩过套圈游戏,也就是一件奖品放在几米开外的地上,而你要抛出一个铁丝或者塑料做的圆环,如果能把奖品圈在环里,那么它就归你了。和前面一样,如果你能自带圆环的话,那么圆环肯定是越大越好——你要是能带一个整个操场那么大的环儿,那肯定就赢定了嘛!
游戏规则得怎么改才有意思?我们玩这个游戏,是希望看看谁套圈的手艺最好。在圆环大小一样的前提下,这手艺自然就和套圈的成功率有关了。因此,一种直接的办法就是,大家都用同样大小的圆环,抛掷同样的次数,看谁圈中奖品的次数最多。
偏偏今天带我们玩儿的这个老师想法比较奇崛,他提出了另外一种方法:规定一个特定的套圈成功率(比如说80%),要求全体小朋友都必须达成,而每人选定一种大小的圆环来完成这一目标,最后谁的圆环最小,谁就获胜。
这个规则听起来很奇葩,仔细想想却很有它的道理在。既然大家成功率都一样,那么圆环越小,自然就是水平越高了。
?
好了,故事说完了,它和置信区间到底有什么关系呢?
要揭示其中的联系,我们先要回顾现代统计学的一个基本争论。几个月以前,我们在《贝叶斯vs频率派:武功到底哪家强?》里介绍过统计学的两大派别:频率主义派和贝叶斯主义派。我们最近研究的t检验,是频率主义统计学的一种方法。
(戳这里回顾:贝叶斯vs频率派:武功到底哪家强?)
频率主义者认为,对于任何我们感兴趣的可以量化的问题(比如说,格格巫包子的平均重量),其答案都是客观确定的数量,但是我们并不知道究竟是多少。当我们用某个区间去估计这个数量时,只要这个区间确定了下来,真实答案是否落在该区间之中就只有「是」或「否」两种可能,而不存在某种中间状态。
就像在刚才的故事里,奖品就放在几米远的地面上。每当我们抛出一个圆环,它落地以后就只有圈住或没圈住奖品这两种状态。
因此,在频率主义统计学的框架里,当我们进行区间估计时,不能讨论某个区间包含真实值的概率(因为只要区间确定,是否包含真实值就是已知的了)。
那么,我们怎样知道我们构建的区间好不好呢?根据频率主义者的观点,我们只能通过大量重复的实验,以频率来推测概率。也就是说,如果我们重复从同一个总体中获得样本,用同样的方法构建出许多用于估计效应大小的区间,这些区间中包含真实值的比例便是区间估计的「置信度」(confidencelevel)。
用刚才的故事做类比,不同的置信度对应于不同的区间宽度,就好像不同的套圈成功率会对应不同的圆环大小一样。置信度越高,区间就越宽,估计的不确定性就越高。反过来说,如果给定一个置信度,区间宽度越窄,数据所提供的估计也就越精确,就好像固定成功率,圆环越小,手艺越高一样。在通常的数据分析中,一般选用95%的置信度,从而与p=0.05的显著性水平相对应。
?
因此,置信度为95%的置信区间有怎样的性质呢?
如果从同样的总体中生成许多个样本,根据每个样本的数据各找出一个这样的区间,则在所有这些区间里,有95%会包含真实值,如下图1所示。
图1置信水平为95%的置信区间
图中μ为真实值。每条蓝线为根据一个样本所得到的置信区间,若蓝线与红色水平虚线相交,则代表该置信区间包含真实值。
(图片来源: