说人话的统计学
在前面两集文章里,我们一起认识了线性模型这件新玩具。
利用线性模型,我们不仅从一个新的角度重新审视了早已熟悉的t检验和ANOVA(回顾《车模航模你玩过,统计学模型你会玩吗?》——留言说要玩汽车模特的同学放学别走),还为大家介绍了线性模型中自变量为连续变量的情形,也就是通常所说的线性回归(回顾《如果只能学习一种统计方法,我选择线性回归》)。
让我们来复习一下线性回归模型的最简单形式:
上面这条式子的意思是说,从自变量x的第i个测量值xi出发,要得到与之对应的因变量y的第i个测量值yi,只需在x上做个简单的线性运算β0+β1*xi。当然,我们不能保证β0+β1*xi就能恰好等于yi,而是可以容许一定的偏差,也就是误差项εi。我们之前也讨论过,通常情况下,我们认为误差项服从均值为0,方差为σ2的正态分布,也就是
结合上面(1)(2)两条式子,我们就有了一个关于因变量y和自变量x的线性回归模型。这个模型里面有三个参数(parameters),分别是截距β0、斜率β1、误差的方差σ2。
有了数据(一系列x和y的测量值)和模型的形式,我们要做的就是找出最符合数据的模型参数,并且作出相应的统计推断。
从数据出发,我们该如何找到最合适的参数呢?
回到上一集的例子,现在我们已经有了若干个蓝精灵家庭中的父母平均身高(自变量x)与子女身高(因变量y)数据,想要建立一个描述它们之间关系的线性模型。
我们在上一集也说过,对于模型中的式子(1),如果先不看误差项,β0+β1*xi其实就是二维平面上的一条直线。所以,从直观上说,要确定三个参数,我们就是要找到一条最符合数据点趋势的直线。
这条直线应该怎么找?我们先来摸索一下。
作为初步尝试,我们随便找两组截距β0和斜率β1值,画出下图的两条直线(橙色:y=45+0.41x;绿色:y=-0.5x)。
不需要繁琐的计算或检验,只要看一眼上面的图,我们就能意识到,这两条直线(及其对应的模型参数)并不能让我们满意。
先看橙色的直线,绝大多数数据点都在它上方,也就是说,它所代表的模型在整个数据集的父母平均身高范围内(cm-cm)基本都在低估子女的身高。
绿色的直线呢?似乎更糟糕,因为从数据点的趋势来看,随着父母平均身高的增长,子女的身高也随之增加。然而,绿色直线所代表的模型却有一个负的斜率(-0.5)——换言之,这个模型认为长得高的父母一般会有比较矮的孩子。而且,它在父母身高较小时倾向于高估子女的身高(父母身高在cm以下时,大多数据点在绿色直线下方),而在父母身高较大时倾向于低估子女的身高(父母身高在cm以上时,大多数据点在绿色直线上方)。
但是,对于其他的一些模型参数,结论就不那么一目了然了。
让我们再来看下图中不同颜色直线代表的三个线性回归模型(蓝色:y=0.75x;红色:y=40+0.5x;紫色:y=55+0.41x)。
这三条直线看起来都挺符合数据点的大致趋势,然而它们给出的解读却有不小差别。比如说,我们上一集讲过,这个模型中截距β0的解读是,每当自变量x增加(或减少)一个单位时,因变量y会有多少变化。所以,蓝色模型认为,每当父母平均身高增加1cm,子女的身高平均来说会增加0.75cm,而红色、紫色模型则分别认为子女身高只会增长0.5cm、0.41cm。
因此,要选择最符合实际数据的模型参数,咱们不能光靠眼睛看,得拿出一个清晰明确的标准。要讨论这个标准应该是什么,咱们还得先一起捋一捋思路。
要寻找「最优」的截距β0、斜率β1、误差方差σ2,我们要做的事情是,在由这三个参数定义的三维空间里,找到一个我们认为在某种标准下最好的点。
在频率主义统计学的体系(可回顾《贝叶斯vs频率派:武功到底哪家强?》)里,模型的参数是有唯一确定(但我们并不知道)的真值的,真值同样也是这个三维参数空间里的一个点,不妨记为(Β0,Β1,Σ2)。因此,如果我们给出一个估计(β0,β1,σ2),它要么就是对的(在时),要么就是错的,不存在类似于「有60%可能正确」的带有概率的结论。当然,由于我们不知道真值,所以我们也无从判断估计的对错。
如果你觉得上面一段话的推理过程有些别扭,尤其是觉得频率主义认为对任意一个具体的估计(β0,β1,σ2)不能作出概率判断非常不合理的话,别担心,其实你并没有什么错,只不过是自带贝叶斯主义属性比较强而已——欢迎你在本文底下留言,我们也许会在未来再为大家讲讲,贝叶斯统计学对线性回归问题是怎样处理的。同时,我们也请你试着暂时放下这个疑问,先接受上文的出发点。
但是,我们可以采取类似于p值那样的思想(回顾《你真的懂p值吗?》),来考虑一下,在假设我们的估计就是真值的情况下,观测到我们手上数据的可能性有多大,这个可能性称为「似然」(likelihood)。对于参数空间里的任意一个点A(β0,β1,σ2),根据我们的模型和实际数据,都可以算出一个似然的值L(A)。这样一来,如果我们穷尽参数空间里的每一个点,把每个点对应的似然都算出来,你会选择哪一个点作为对模型参数最有把握的估计?
相信你会说,选似然最大的一个!不错,这正是我们在以前的文章中也简单提到过的极大似然估计(maximumlikelihoodestimation)的思想。
如果你有些不太确定,其实我们每一个人都会在日常生活中自觉运用这样的思想。比如说,街上迎面走来一个金发碧眼的美女,如果有人问你,你觉得她是亚洲人、欧洲人还是非洲人,你肯定不假思索就会说:「欧洲人!」因为在亚洲人、欧洲人、非洲人这三种选择中,欧洲人拥有金发碧眼的可能性很大,而亚洲人、非洲人金发碧眼的可能性都很小,所以,你也自然地使用了一次极大似然估计大法。
那么,在今天讨论的线性回归模型中,似然函数应该怎么算?关键就在模型对误差的规定里。记住,我们是在对参数空间中不同的点(β0,β1,σ2)计算似然函数的值,因此只要选定了具体的一个点,β0,β1,σ2就是固定的。
我们先把某个蓝精灵的父母身高平均值xi代入β0+β1*xi中,就能得到对该蓝精灵身高的估计值。把这个估计值与这个蓝精灵身高的真实值yi相比,就能得到误差εi。而我们的模型又指明了误差服从正态分布N(0,σ2),其中σ2也是我们已经选定的,根据正态分布的概率密度函数(回顾《正态分布到底是怎么来的?》):
我们就能算出,对于第i个数据点,在当前以β0,β1,σ2为参数的模型中,模型在该数据点上的误差为的可能性(似然)大小。对于其他数据点xi到xn,我们也依葫芦画瓢,算出似然。
然后,因为线性回归模型假设各数据点是独立、不相关联的,所以我们只需把每个数据点的似然乘起来,就能得到当前参数组合下观测到整套实际数据的可能性(似然函数值)了。
了解了计算似然的方法,对于任意选定的参数组合(比如文章前面两幅图中用不同颜色表示的几个模型),我们都可以把实际数据套进模型中,得到似然的大小。理论上来说,我们只需把模型参数可能取到的整个空间都检查一遍,找出似然函数最大的那个(或那些)点就可以了。
当然,哪怕只有一个参数,一个再小的区间里都包含无数个点,像穷举这样的办法是不可行的。幸运的是,对于本文(1)(2)这样最简单的线性回归模型,只需用到一点微积分知识,就能直接得到似然函数最大的参数值,而不需要把参数空间中的点一个个算过来:
其中和分别为x和y的算术平均值,即
为第i个数据点根据模型与xi得到的估计值,即。
当然了,现在我们连上面的解都不需要记住了,因为统计学软件只需要用一瞬间就能给我们算出来。但是,理解它们的由来与意义,对把它们用好、用对是很重要的。
值得一提的是,上面的的极大似然解,其实有着一个很好的几何意义——它们是在所有β0、β1的组合中,能够使误差平方和(例如下图中四个数据点到代表模型的虚线的垂直距离求平方后相加)最小的一组。因此,上面的这组解也被称为最小二乘(leastsquares)解(「二乘」就是平方的意思)。
有了,线性回归模型就建立好了。对本文例子中的数据集,最小二乘解所对应的线性模型就是y=55+0.41x(图2中的紫色直线)。
有了这个模型,我们能进行怎样的推断和预测?父母身高和子女身高之间存在正相关关系,但是这个关系是否具有统计学意义上的显著性?各位看官请听下回分解。
五年执医三年模拟精选每日一题
更多精选题可回顾历史推送文末
题目来源:临床执业医师资格考试往届真题
本期主播:铩羽
回复「统计学」可查看「说人话的统计学」系列合辑,
或点击下方标题可阅读本系列任意文章
干货
你真的懂p值吗?
做统计,多少数据才算够?(上)
做统计,多少数据才算够?(下)
提升统计功效,让评审心服口服!
你的科研成果都是真的吗?
见识数据分析的「独孤九剑」
贝叶斯vs频率派:武功到底哪家强?
数据到手了,第一件事先干啥?
算术平均数:简单背后有乾坤
正态分布到底是怎么来的?
想玩转t检验?你得从这一篇看起
就是要实用!t检验的七十二变
不是正态分布,t检验还能用吗?
只有15个标本,也能指望t检验吗?
样本分布不正态?数据变换来救场!
数据变换的万能钥匙:Box-Cox变换
t检验用不了?别慌,还有神奇的非参数检验
只讲p值,不讲效应大小,都是耍流氓!
找出t检验的效应大小,对耍流氓sayno!
用置信区间,就是这么(不)自信!
如何确定t检验的置信区间
优雅秀出你的t检验,提升Paper逼格!
要做t检验,这两口*奶可喝不得!
要比较三组数据,t检验还能用吗?
ANOVA在手,多组比较不犯愁
ANOVA的基本招式你掌握了吗?
ANOVA做出了显著性?事儿还没完呢!
听说,成对t检验还有ANOVA进阶版?
重复测量ANOVA:你要知道的事儿都在这里啦
没听说过多因素ANOVA?那你就可就OUT了!
多因素ANOVA=好几个单因素ANOVA?可没这么简单!
两个因素相互影响,ANOVA结果该如何判读?
ANOVA还能搞三四五因素?等等,我头有点儿晕
要做ANOVA,样本量多大才够用
车模航模你玩过,统计学模型你会玩吗?
如果只能学习一种统计方法,我选择线性回归
自检
妈妈说答对的童鞋才能中奖
统计学的十个误区,你答对了吗?
番外篇
说人话的统计学:一份迟来的邀请
作者:张之昊
编辑:黑草乌叶
张之昊