2.1.1 线性回归模型概述
需要被预测的变量称为因变量、被解释变量或反应变量,习惯上用来表示;相对应的,用于预测的变量称为自变量、解释变量或预测变量,习惯上用来表示。
建模分析中,Y为连续型变量的预测问题称为回归问题,Y为离散型变量的预测问题则称为分类问题。例如,通过客户的收入(X)来预测客户信用卡支出(Y),这就是一个典型的回归问题。
1.简单线性回归模型
假设Y与X存在线性关系,当X是一维变量(即只有一列)时,适合用简单线性回归模型。简单线性回归的模型表示如下:
其中,Y是因变量;X是自变量;ε是扰动项;是未知参数,称为截距项,称为斜率。
简单线性回归的建模目标为:评估预测变量在解释反应变量的变异或表现时的显著性;在给定预测变量值的情况下预测反应变量值。简单线性回归可以直观地以图形表示,如图2-1所示。
图2-1 简单线性回归图示
假设X与Y之间存在线性关系,即理论上二者的关系如图2-1中虚线所示,模型方程为,其中ε是扰动项。扰动项表示由个体变异导致的偏离理论模型的情况。实际工作中,我们不可能直接知道这种规律,只能通过统计建模的方法探究理论上的模型,即通过抽样方法采集大量样本来估计理论模型的参数。这些获取到的散点除了受扰动项影响之外,还受抽样偏差的影响,造成散点图不是完全对称地分布在虚线附近。理论中的直线我们无法获得,只能通过样本来推断参数β。根据已有样本获得的最优模型如图2-1中实线所示。因为是通过样本推断出来的,模型参数及反应变量都是估计值,因此使用表示。这里需要强调的是,因为抽样永远有偏差,我们只能通过正确的抽样方法尽可能地降低抽样偏差,但是不可能将其消除。
样本点与模型预测值之间的差值称为残差,即:
残差越小,说明模型越准确。因为样本有n条记录,所以我们希望计算出来的参数能使得残差的平方和达到最小,即最小化下列函数:
其中,L是关于的函数,被称为损失函数或者代价函数;和则是已知的样本值。要获得L达到最小值时的,我们需要得到的驻点。因此令其一阶导数为0,即:
解方程组获得最优的为:
其中,和分别表示解释变量和反应变量的样本均值。
这种方法被称为普通最小二乘法(Ordinary Least Square,OLS),被称为模型的最小二乘估计,具有无偏性和最小方差性的优点。无偏性指参数估计量的期望值等于真实方程中的参数值。不过,这只是说这种估计方法是无偏的,如果样本本身抽样有偏,估计值还是有偏的。最小方差性指满足高斯经典假设前提下,最小二乘法估计出的参数是所有估计中方差最小的。具有这类性质的估计被称为最优线性无偏估计(Best Linear Unbiased Estimate,BLUE)。
2.多元线性回归模型
多元线性回归,顾名思义,其解释变量为两个及以上,一个两变量的回归方程如下:
其中,Y是因变量;和是自变量;ε是扰动项;和是未知系数。
当参数β已知时,该方程可以表示为在三维空间中的一个平面,如图2-2所示。
如果我们对每个变量进行一些非线性变换,多元线性回归模型也可以拟合为一个曲面,例如方程:
尽管自变量包含平方项,该方程仍然属于多元线性回归模型,只需要将平方项视作一个新的自变量。该模型在三维空间中呈现为一个曲面,如图2-3所示。
图2-2 多元线性回归图示
图2-3 多元线性回归图形——曲面
可以看到,线性回归尽管简单,但当模型设置足够复杂时,仍然具较强的表达能力。
多元线性回归的求解与简单线性回归类似,其未知参数的解可以表示为:
其中,X和Y是以矩阵或向量的形式表示的,。
线性回归方程的解析解形式,我们仅做了解即可,因为矩阵求逆计算复杂度较高。随着大数据时代的到来,人们不得不寻找更加高效的数值计算方式,如梯度下降等。从实战角度看,大量的统计分析和机器学习框架实现了高效的线性回归求解,我们会更加关注这些框架的应用,而非如何实现算法。
3.拟合优度R2与调整R2
(1)拟合优度R2
数值预测模型的评估有很多指标,如MSE、RMSE等,其中拟合优度R2常常用于线性回归模型的评估,且该指标具有较好的可解释性,如图2-4所示。
图2-4 模型解释数据变异图示
样本值与估计值的离差平方和被看作是在估计值基础上的数据变异程度,这个变异可以从三个方面来衡量。
·样本的总变异表示为,这个值是在没有任何已知X信息基础上Y的不确定性表达,相当于只用样本均值作为个体数值估计(基线模型)时的差异。
·线性回归模型可以消除一部分关于Y的不确定性,即在X已知的基础上,线性回归模型解释了的数据变异为,即线性回归估计相对于样本均值(基线模型)的差异。
·对应地,未能被模型解释的数据变异则为,相当于用线性回归估计值做个体数值预测时的差异,即残差平方和。这个值越小,说明模型拟合越好。
从数学上可以证明:总变异=模A型解释的变异+模型未能解释的变异。拟合优度R2定义为模型可解释的数据变异占总变异的比值为:
R2最大值为1,越接近1,说明模型解释的变异相对于总变异越多,模型越好;R2的值越小,说明模型解释的变异相对于总变异越少,模型越差;R2为1,则说明模型成功解释了样本值相对于均值的所有变异。
(2)调整后的R2
可以很容易地发现,在多元线性回归中,每增加一个自变量,拟合优度一定会上升,即便增加的是一个毫不相关的变量,无非会解得该变量的系数为0,相当于没增加该变量,拟合优度至少是不下降的。
一个模型变量越多,对样本的拟合程度会越好,但模型会越复杂,越容易造成过度拟合,即对现有样本拟合得很好,但换一个观察期或者换一批样本,模型的效果会大幅下降。
实际上,越简单的模型越不容易过度拟合,并且更容易解释,我们希望能在获取较好的拟合效果的同时模型越简单越好,因此需要设计一个同时反映拟合优度与模型的复杂度的指标。调整R2(也称校正R2)就是这样一个指标,计算公式如下:
当有截距项时,i等于1,反之等于0;n为用于拟合该模型的观察值数量;k为模型中参数的个数,即进入模型的变量个数;R2为拟合优度。
可以看到,拟合优度R2越大,则调整R2也越大,但如果进入模型的变量k变多,调整R2会有下降的趋势。随着变量的增加,调整R2上升的速度会低于R2的上升速度,甚至当增加的变量相关性较差时,调整R2会出现下降的情况。通过平衡变量的数量与模型的拟合程度,调整R2可以用于变量的筛选。
除了调整R2外,赤池信息量(AIC)或者贝叶斯信息量(BIC)也可用于变量的筛选。它们的计算公式不同,但基本原理一致,都是通过平衡拟合程度与变量数量来寻找较好的变量组合。
值得注意的是,调整R2仅用于变量筛选,即所谓的选取最优模型。评估最终模型的拟合程度时,还是使用R2。