金融商业算法建模:基于Python和SAS
上QQ阅读APP看书,第一时间看更新

2.1.9 线性回归的完整流程小结

通过前文描述,我们可以总结线性回归建模的完整流程,如图2-21所示。

图2-21 线性回归建模流程

在图2-21中,验证模型假设是非常重要的一步,总结如下。

·假设1(线性假定):以方程显著性检验及参数显著性检验为参考,也可以通过散点图辅助判断,但仍然需要业务理解的支撑。选择何种回归方法、如何选变量、变量以何种形式放入模型都会影响判断。如果违反该假设,则模型预测能力差,或者模型本身不正确。

·假设2(正交假定):解释变量和扰动项不能相关(根据理论或常识判断,难以检验);如违反则回归系数估计有偏。

·假设3(自变量不存在多重共线性):可以使用膨胀因子进行检验,完全消除多重共线性是不现实的。如果多重共线性过于严重,回归系数的标准误差会被放大,模型会不稳定。

·假设4(扰动项独立同分布):使用残差图、异方差检验、DW检验等进行分析。如果违反该假设,扰动项的标准差估计不准确,t检验失效。

·假设5(扰动项服从正态分布):使用QQ图、KS检验等方法判定。如果违反该假设,t检验失效。

假设3~5能保证模型精确,假设1~2能保证模型是正确的。统计方法只能帮我们做精确的模型,不能帮我们做正确的模型。

关于线性回归的总结如下。

首先,多元线性回归只适合线性问题。对于非线性问题,我们需要做变换后才能够用线性回归模型。很多情况下即便是做了变换,也不能用线性回归,这就需要考虑其他非线性模型了。

其次,在实际应用中,线性回归往往是与理论分析一起完成归因分析。值得注意的是,我们不能因为建立了回归模型,就说X与Y是因果关系,这是非常典型的错误。

最后,线性回归的假设是同方差,也就是说方差的大小并没有被限制。如果模型用来预测,在建模的时候一定要关心方差的大小,否则,即便模型有统计意义,预测精度依然无法保证。