如果只能学习一种统计方法,我选择线性回归 - 苦参

TUhjnbcbe - 2020/12/4 18:41:00

说人话的统计学

在上一集里面我们把t检验和ANOVA都放到了统计学模型来看，这些检验方法不再是一个个孤立的方法，而是线性模型的框架底下的一些特殊情况。

在线性模型的框架底下，分组信息是线性模型的输入，测量值是线性模型的输出，需要比较的组的平均值就是线性模型的参数，假设检验两组的平均值是否相等变成是检验线性模型的特定参数是否不等于0。

引入线性模型不仅能把前面学的各种检验方法放到一个统一的框架底下，还能解决t检验和ANOVA不能解决的一大类问题：输入包含连续变量的情形。如果到这里没有看懂，不用担心，下面我们就请出我们的蓝精灵老朋友，从一个例子看起：

蓝精灵们开学的第一天，学校要体检，蓝精灵厌厌最讨厌的环节就是量身高了，因为他总是班里面最矮的。厌厌想弄明白自己矮是不是因为跟父母身高矮有关系，他就做了一个调查问卷，采集了班上每一只蓝精灵的身高以及它们父母的身高。

现在有了数据，厌厌怎样做数据分析才能知道父母身高是否影响子女身高呢？

直觉告诉我们爸爸妈妈的身高会共同影响子女的身高，为了同时考虑到父母双方的身高的影响，可以取其两者的平均值作为因素进行研究。

如果生搬硬套t检验来研究父母身高平均值是如何影响子女身高的，我们可以把班上蓝精灵按照父母的平均身高分为高和矮两组，如果父母身高真的能影响子女身高，父母高的组蓝精灵身高应该显著地高于父母矮的那组蓝精灵（如图1）。

图1通过将父母平均身高这一连续变量切分成高和矮两组来判断父母身高是否影响子女身高

这样分析有一个明显的问题，那就是是将父母身高分为高矮两组的分界线设置有无数种可能，设想有可能我们以一米五为分界线，发现有显著性，而以一米二为分界线，又没有显著性，那该最终结论到底以哪个为准呢？

线性回归模型就是用来解决这个问题的。

在这个例子里面，父母的身高是线性回归模型中的预测变量（predictor），也称为自变量（independentvariable），蓝精灵的身高是预测值（predictivevalue），也称为因变量（dependentvariable）。我们在下面讲回归模型的时候都用预测变量来代表线性模型的输入，预测值来代表线性模型的输出。

线性回归模型假设预测变量和预测值之间存在着线性关系。为了直观地理解线性关系，我们把预测变量（即例子中的爸爸妈妈的平均身高）作为x轴，预测值（子女的身高）作为y轴，将每一对预测变量和预测值数据都用一个点标出来，这叫做散点图。如果这些点大概在一条直线上面，说明两者之间近似满足线性关系（如图2），这条反映预测值与预测变量之间关系的直线被称为回归线。

图2用散点图展现数据，蓝线代表回归线，数据与图1中一样

由于测量出的数据总存在误差，预测值和预测变量不可能完全落在回归线上，预测值会在回归线的上下波动，在线性回归模型中用误差项来表示。

上一集我们用线性模型来表示的t检验也遇到了误差项，它和线性回归模型中的误差项一样，反映的是模型无法解释的个体差异。

总结上面的讨论，我们可以看到，线性回归模型就是用回归线加上误差项来描述预测值和预测变量之间的关系：

其中β0和β1是决定回归线的参数，β0是截距，β1是斜率，斜率越大，回归线就越陡。回归线是用来表示了预测值和预测变量之间的关系，如果这个关系被已有的数据证明非常可信，那么在遇到新的x0值，我们即使不知道其对应的真实值y0，我们也可以用线性回归模型估计出一个合理的值，这个预测值就是x0在回归线上对应的y值β0+β1*x0。

往往我们实际得到的数据中，即使两个数据点的预测变量x完全一样，测量到的预测值y也不一定一样。比如两个孩子父母的身高完全一样时，两个孩子之间身高不一定相同，也就是说同样的x可能对于多个y值。

如果我们知道父母平均身高为cm，通过回归模型计算出的子女身高的预测值y0=β0+β1=cm，它其实说的是所有「父母平均身高为cm的人」的平均身高为cm，也可以理解为父母平均身高为cm的人最有可能是cm，具体到个人的时候会在cm上下波动。

线性回归模型中的系数β1也被称为回归系数，它直接反映了预测变量x与预测值y的关联程度，往往是我们关心的重点。如果β1的值等于0，y=β0+0*x，从y的表达式可以看出，它与x没有半毛钱关系，回归系数是一条水平的直线（图3）。

图3当回归线接近水平直线的时候，说明预测值几乎不受预测变量的影响

如果β1不等于0，当x的值改变了1个单位，在线性模型的假设下，y的值的改变为β1，这可以从下面的推导得出：

也就是说，在其它条件都不变的情况下，x值每增加1个单位，y值平均而言会增加β1，这是对回归系数最直观的解释。

这样解释的含义，往往会暗示一种因果关系：因为将x值增加了1个单位，导致了y值平均而言会增加了。

这样的解释在很多情况下是不成立的。

我们可以把x代表的变量和y代表的变量在线性回归中进行对调，将父母身高当成y，子女身高当成x，虽然两者之间依然有相关性，我们当然得不出「因为子女高导致父母高」的荒谬结论。

可见线性回归分析只能揭示要研究的两个变量之间是否有相关性，即一个变量的变化是否伴随着另一个变量值的变化，而并不能解释两个变量之间的变化是否有因果关联。

在线性回归模型里面，系数β0，β1决定了回归线的走向，也就是y与x之间的定量关系，代表误差项大小的σ代表了模型有多准确。通常情况下，线性回归模型假设误差项ε服从平均值为0，方差为σ2的正态分布，而且方差的大小不随着预测变量x值改变，也叫做同方差性（Homoscedasticity）。换句话说，同方差性就是指误差项的方差是一个常数，与实验条件无关。

在通过父母平均身高预测子女身高的例子里面，同方差性意味着无论父母平均身高是两米还是一米六，线性模型预测的子女身高和真实身高之间的绝对差距是近似的。如果随着父母身高增加，子女的预测身高与真实身高的差距也有变大的趋势，同方差性就不再满足了，以后我们会讲到如何在同方差性不能满足的情况下做回归模型。

说完了线性回归模型里面每一个参数的含义，下一集我们会给大家介绍在同方差性的假设底下，如何用最大似然估计来获得关于β0和β1值的最佳估计。

回复「统计学」可查看「说人话的统计学」系列合辑，

或点击下方标题可阅读本系列任意文章

干货

你真的懂p值吗？

做统计，多少数据才算够？（上）

做统计，多少数据才算够？（下）

提升统计功效，让评审心服口服！

你的科研成果都是真的吗？

见识数据分析的「独孤九剑」

贝叶斯vs频率派：武功到底哪家强？

数据到手了，第一件事先干啥？

算术平均数：简单背后有乾坤

正态分布到底是怎么来的？

想玩转t检验？你得从这一篇看起

就是要实用！t检验的七十二变

不是正态分布，t检验还能用吗？

只有15个标本，也能指望t检验吗？

样本分布不正态？数据变换来救场！

数据变换的万能钥匙：Box-Cox变换

t检验用不了？别慌，还有神奇的非参数检验

只讲p值，不讲效应大小，都是耍流氓！

找出t检验的效应大小，对耍流氓sayno！

用置信区间，就是这么（不）自信！

如何确定t检验的置信区间

优雅秀出你的t检验，提升Paper逼格！

要做t检验，这两口*奶可喝不得！

要比较三组数据，t检验还能用吗？

ANOVA在手，多组比较不犯愁

ANOVA的基本招式你掌握了吗？

ANOVA做出了显著性？事儿还没完呢！

听说，成对t检验还有ANOVA进阶版？

重复测量ANOVA：你要知道的事儿都在这里啦

没听说过多因素ANOVA？那你就可就OUT了！

多因素ANOVA＝好几个单因素ANOVA？可没这么简单！

两个因素相互影响，ANOVA结果该如何判读？

要做ANOVA，样本量多大才够用

ANOVA还能搞三四五因素？等等，我头有点儿晕

车模航模你玩过，统计学模型你会玩吗？

自检

妈妈说答对的童鞋才能中奖

统计学的十个误区，你答对了吗？

番外篇

说人话的统计学：一份迟来的邀请

作者：田菊

编辑：黑草乌叶

田菊