1.5 数据挖掘建模框架的3个原则
笔者提出了数据挖掘建模框架的3个原则,即以成本-收益分析为单一分析框架、以分析主体和客体为视角构建全模型生命周期工作模板,将纷繁多样的数据挖掘应用主题归纳为3大分析范式和9大工作模板,如图1-18所示。
图1-18 3大分析范式和9大工作模板
1.以成本-收益分析为单一分析框架
世上万事万物都具有矛盾的两面性,金融数据挖掘建模力图通过数据反映行为背后的规律,紧抓主要矛盾就是找寻规律的捷径。大家都知道,挖掘有效的入模特征是数据建模的难点。一旦我们了解了分析课题的主要矛盾,这个难点就迎刃而解了。下面讲解如何使用这个框架进行分析。
首先举3个例子。
1)信用评分模型中,是否逾期是被预测变量,而解释变量中经常出现的收入稳定性、职业稳定性、家庭稳定性、个人社会资本都是在度量客户违约成本。信用历史既是被解释变量的滞后项,也能反映违约成本。收益会用贷存比、贷收比、首付占比等指标来衡量。
2)申请欺诈模型的标签往往是客观存在的。入模特征以反映异常为主,比如异常高的收入、异常高的学历、异常密集的关系网络等。这背后隐藏着统一的成本-收益分析框架。之所以会显示异常,是因为造假是有成本的,信用卡申请欺诈者知道收入证明造假可以获得更高的信用额度,但是由于其居住地、职业和学历没有造假,因此按照这三个维度对其收入进行标准化之后很容易发现其收入异常。这可以说是公开的秘密,因为信用卡发放公司会根据造假成本对非可靠申请者进行授信,使得欺诈者无利可图。
3)运营优化模型比如资产组合的持仓问题,其收益是资产的收益率,而成本是该资产市场价格的波动率。建模人员需要选择收益-成本最优的组合。
2.以分析主体和客体为视角
在数据挖掘建模中,定义标签是主体视角。比如营销预测模型中客户是否响应,是建模人员自己定的规则,这个规则有可能是收到营销短信后三天内注册账号并产生订单。在构建入模的特征集时需要采用客体视角,比如手机银行的营销响应模型中,入模的特征应该反映客体的成本-收益的变量,比如年龄反映的是使用手机银行和去实体渠道的成本。当建模人员意识到标签是自己主观臆断的时候,便会对该标签的选择更用心;当意识到入模的特征来自客体时,才会从客体的视角出发更高效地构建特征集。
3.构建全模型生命周期工作模板
我们在CRIP-DM和SEMMA的基础上提出“高质量数据挖掘模型开发七步法”,如图1-19所示。前三步是蓄势阶段,更多的是从业务人员、数据中吸收经验并形成感知。制作特征、变量处理和建立模型阶段是丰富特征、寻找有效模型的阶段,需要通过各种手段探查到最有效的特征和精度最高的模型。最后是模型输出阶段,选出的模型不但精度高,还要稳定性强。
图1-19 业务人员的业务表述