说人话的统计学
我们「说人话的统计学」栏目在过去的一段时间里,给大家连篇累牍地介绍了两门最常见的统计学基本功——t检验和ANOVA(方差分析)从原理到使用方方面面的问题。有了这些知识作后盾,加上如今各种方便的统计学软件,想来大家对于t检验和ANOVA的一招一式已然成竹在胸了吧?
话虽如此,如果我们来回顾和对比一下t检验和ANOVA,也许还会有个别让人困惑的地方:
第一,我们总会强调,在使用t检验和ANOVA之前,要检查相应的假设是否成立(比如是否服从正态分布、各组方差是否相等之类)。诚然,我们之前都讨论过为什么我们需要这些假设,可是也许你还是想问,真的非它们不可吗?要是有些假设不成立,我们能不能不在乎它们呢?
第二,t检验管的是一两个组的平均值,ANOVA管的是三个或者以上组的平均值,说起来都是一样的问题,为什么它们的原理看起来这么不一样?它们到底是一回事还是两回事?
而且,把这两个问题结合起来看,你也许还会觉得,统计学似乎有些琐碎和死板——对于同一个问题(对算术平均值进行比较和推断)的不同情况,就得用上很不一样的两种招式,还得有那么多条条框框。有没有更灵活多变的方法,能够事半功倍地解决不同的问题呢?
为了解答上面这些疑问,并且引出未来将要学习的新话题,今天我们一起来尝试用一个新的角度来看t检验和ANOVA。
1
不管是t检验,ANOVA,还是以后会讨论的其它什么统计学的方法,归根结底它们都是各种各样的统计学模型。所谓模型,就是对现实世界的某种抽象化。我们小时候把玩过的汽车飞机模型,看房子时琢磨过的微缩小区或房型展示,外出旅游时查阅过的地图,中学物理考试里算过的牛顿力学,都是各式各样的模型,为我们总结了客观世界中某些方面的规律或信息。
那么,t检验和ANOVA分别为我们构建了什么样的统计学模型?
我们首先从最简单的一种情形看起——只有一个分组,而我们想要考察该分组的某个变量的算术平均值。这其实就是单样本t检验的情况。这时,我们最基本的想法是,该分组内的不同个体由于具有一些共同的性质,使得不同个体该变量的取值应当服从某种规律,具有一定的共性。例如,同一种类的成年猫头鹰有大体相似的体重,工作日同一时间段从东单到阜成门的行车时间基本类似,等等。
如果我们接受这个出发点,回到我们感兴趣的变量,那么一个自然的推断便是,该分组内各个个体的这个变量应当大体接近于它们的「共性」所决定的某个值。之所以说是「大体接近」,而不是完全等于,那是因为不同个体之间总会有些随机误差,使得变量的具体取值相对于它们的共性所决定的值会有所偏离。
如果用y表示变量的取值,用μ表示个体在这一方面的共性,那么就有
这已经可以说是一个模型了。
我们上面说过,构建模型的意义在于总结客观世界中的某些规律。在这个例子里,如果我们能把一堆数据套到这个模型上,找出对的合理估计,我们就得到了对世界的一点新认识。
然而,这个模型很难让我们找到一个确切的——由于那个约等号的存在,我们顶多只能找到的一个模糊的范围,这个范围的界限在哪里都不好说,更别说找出一个最佳的了。
所以,我们还需要对这个模型做些改进,使它更精确一些。要把这个约等号去掉,我们就得把每个y和之间的差别具体化。
如果我们引进εi作为第i个数据点与μ之差,那么就有
去掉了约等号,看起来要精确多了。
但是,光有这条等式还不够,因为我们仍然可以随意认定一个,然后剩下的差别作为就行了。要锁定μ,我们还需要对εi的性质做个规定,这样它们才不能随便乱跑。
这时,我们就需要用到在《算术平均数:简单背后有乾坤》和《正态分布到底是怎么来的?》两集中的知识——一种合理的假设,是认为误差εi应该服从均值为0的正态分布,也就是说
这样一来,我们的模型中就有两个参数,一是μ,代表个体间共同的性质,一是σ(标准差),代表误差的发散程度。
有了这两条,我们就可以选定某些客观标准(比如《算术平均数:简单背后有乾坤》中简单介绍过的极大似然估计;不了解或者已经忘记了也没有关系,我们在未来几集里还会再详细介绍该方法在线性模型中的应用),找出最符合我们手上数据的、对μ和σ的估计值(一般写作和)了。
在单样本t检验中,我们用到的统计学模型其实就是这一个(在样本量较小的时候,也可以认为误差服从t分布,参看《想玩转t检验?你得从这一篇看起》)。有了和,我们就可以进一步回答诸如「与某个常数(比如0)之间是否有显著的差别」这样的问题了。
2
单样本如此,有两组的时候又怎么样呢?
我们把两组分别记为组1和组2,组1、组2中的数据点记作y1m,y2n。
参照上面只有一个组时的模型,则有
其中μ1、μ2分别是两组各自的某种共性决定的理论均值,而σ1、σ2分别是两组各自随机误差的标准差。
还记得两组独立样本的t检验要先检验方差是否相等吗?那时我们关心的其实就是上面的σ1、σ2是否相等。如果我们有理由认为两者相等(记作σ),那么我们还可以进一步把上面的模型换个样子。
这时,我们先把两组数据合并在一起,不再分成y1m,y2n,而是统一按照原来的办法,记成yi。但是这样的话,我们还怎么知道哪个属于组1、哪个属于组2呢?为了解决这个问题,我们引进一个新的变量。如果第i个数据点来自组1,那么si=0;如果来自组2,则si=1(其实只要两个组各取一个不一样的数值即可,不一定非要0和1,但是我们后面会看到,这样做有它的优越性)。这样一来,上面的模型就可以变成
我们不妨验证一下,这种写法是不是和前面两个组分开的模型是一样的。如果是第一组,那么si=0,代入到上面的式子里我们可以得到
如果是第二组,则有si=1,同样代入到前面的模型,会有
对照一下一开始两组分开描述的模型(4)和(5),确实是一样的吧?
确认了这一点,我们还可以把模型(6)写得简洁一些。令β0=μ1,β1=μ2-μ1,我们可以得到
利用实际数据和极大似然估计,我们可以估计出β0、β1和σ。注意到β0就是μ1,也就是组1的理论均值,而β1是μ2-μ1,也就是组1、组2理论均值的差别。因此,在独立样本的t检验中,我们针对两组均值之差进行统计推断,关心的其实就是β1。
我们再回到模型(7),观察这个式子以及β0、β1的含义,我们可以发现,它可以这样理解:当si=0时,yi的平均值就是β0,也就是说,这个模型把第一组作为一个「基准」。而当si=1时,这个模型要对yi进行「修正」,而修正的量是多少呢?就是β1,即两组均值之差μ2-μ1了。
3
顺着这样的思路,我们也可以把这样的模型拓展到ANOVA中涉及多组比较的情形。和上面一样,不论有多少个因素,多少个分组,我们都可以像模型(4)(5)那样,为每个组建立一个有自己的均值、自己的标准差的独立的模型。然后,如果每个组的标准差都相等(这就是ANOVA中各组方差相等的要求的来源!),我们就可以按照上面的方法,把模型归并到一起,选定某个组作为「基准」,然后根据组别,在「基准」的基础上进行「修正」。如果是多因素的情形,还要考虑主效应和交互效应的叠加。
上面提到的这些模型,都属于一类最常见、最好用的统计学模型——线性模型(linearmodels)。
明白了这一点,我们就可以知道,t检验和ANOVA只是线性模型中的一些特殊情形,而它们的具体计算方法(如ANOVA中的各种平方和与F分布的应用)只不过是统计学家们根据这些特殊情形的理论性质,找出的一些便捷规范的方法而已。打个比方,如果把数据分析比做烹饪,t检验和ANOVA及其计算方法就好像是电压力锅上「煮饭」、「炖肉」之类的预设程序一样。
而这些预设程序在带来莫大方便的同时,也给我们制造了不少束缚,t检验和ANOVA亦是如此。
分布不正态怎么办?各组方差不相等怎么办?球面性假设不符合怎么办?这些要求一来让人死记硬背不求甚解,二来在实际问题中并不总能得以满足。虽然有时能有数据变换、非参数检验一类的解决方法,但是许多时候难免有些削足适履。要把纷繁复杂的数据做出真正的好菜,还是得在炉子上像个真正的大厨一样才行(当然,在条件合适的时候,我们也不排斥压力锅)。
在接下来的几集里,我们将为大家重点介绍线性模型的建立和相关统计推断。掌握了统计学建模的方法,我们就可以大大丰富数据分析技能,发掘更多统计学的魅力与精彩啦!
五年执医三年模拟精选每日一题
更多精选题可回顾历史推送文末
男,45岁。上腹部剧烈疼痛3小时,随机蔓延到全腹,呈持续性。查体:板状腹,全腹压痛及反跳痛,肠鸣音消失。
题目来源:临床执业医师资格考试往届真题
本期主播:波棱瓜子??
回复「统计学」可查看「说人话的统计学」系列合辑,
或点击下方标题可阅读本系列任意文章
干货
你真的懂p值吗?
做统计,多少数据才算够?(上)
做统计,多少数据才算够?(下)
提升统计功效,让评审心服口服!
你的科研成果都是真的吗?
见识数据分析的「独孤九剑」
贝叶斯vs频率派:武功到底哪家强?
数据到手了,第一件事先干啥?
算术平均数:简单背后有乾坤
正态分布到底是怎么来的?
想玩转t检验?你得从这一篇看起
就是要实用!t检验的七十二变
不是正态分布,t检验还能用吗?
只有15个标本,也能指望t检验吗?
样本分布不正态?数据变换来救场!
数据变换的万能钥匙:Box-Cox变换
t检验用不了?别慌,还有神奇的非参数检验
只讲p值,不讲效应大小,都是耍流氓!
找出t检验的效应大小,对耍流氓sayno!
用置信区间,就是这么(不)自信!
如何确定t检验的置信区间
优雅秀出你的t检验,提升Paper逼格!
要做t检验,这两口*奶可喝不得!
要比较三组数据,t检验还能用吗?
ANOVA在手,多组比较不犯愁
ANOVA的基本招式你掌握了吗?
ANOVA做出了显著性?事儿还没完呢!
听说,成对t检验还有ANOVA进阶版?
重复测量ANOVA:你要知道的事儿都在这里啦
没听说过多因素ANOVA?那你就可就OUT了!
多因素ANOVA=好几个单因素ANOVA?可没这么简单!
两个因素相互影响,ANOVA结果该如何判读?
要做ANOVA,样本量多大才够用
ANOVA还能搞三四五因素?等等,我头有点儿晕
自检
妈妈说答对的童鞋才能中奖
统计学的十个误区,你答对了吗?
番外篇
说人话的统计学:一份迟来的邀请
作者:张之昊
编辑:黑草乌叶
张之昊