上QQ阅读APP看书,第一时间看更新
2.1.7 强影响点分析
在建模分析过程中,通常会遇到一些对模型影响非常大的数据点。其存在与否以及值的大小对模型产生的影响会远超过其他正常的数据点,如图2-16所示。
图2-16 强影响点示意图
1)强影响点等价于异常值,包括离群值和错误值。
·离群值是远离其他数据点的值,比如在统计个人资产时,超级富豪的资产数额肯定是离群值。
·错误值比如年龄数据中的-1或999显然是错误的。错误值产生的原因可能来自输入错误、数据处理中引入等。毫无疑问,错误值对模型的影响也很强。
2)使用学生化残差识别强影响点。
·学生化残差SR=残差/标准差。
·|SR|>2时,表示影响相对小的影响点。
·|SR|>3时,表示影响相对大的影响点。
3)强影响点的单变量处理方法:删除对应的强影响点样本;使用盖帽法,即对X设定一个上限(或下限)值,凡超过上限的值用上限替代,低于下限的值用下限替代,例如所有年收入超过100万元的值都视作100万元。
对于线性回归,删除强影响点是更加合理的选择。例如对于信用卡支出预测,我们应当主要考虑多数正常收入和支出的客户,超级富豪的消费行为显然难以与普通客户类比。从业务上来说,超级富豪的服务可由专门的客户经理负责。