前言
为何写作本书
“工欲善其事,必先利其器。”
首先,当你考虑如何将数据应用到经营管理当中,如何从数据角度诊断业务发展中存在的问题,如何用数据指导业务发展,以及如何进行数据资产变现时,你会发现必须有一套数据加工工具以及可应用的工作流程作为支撑。当前市面上的数据分析工具十分丰富,有支持分布式计算的,有提供操作界面的,有免费开源的,有提供自动建模功能的,甚至兼而有之的。SAS EM与Python是其中十分优秀和流行的工具。SAS EM功能强大,操作简便,自动化程度高;而Python应用范围广,框架丰富,使用灵活,编写效率高。二者在分析过程中可以互相印证,在实际应用中可以互为补充。
其次,当前市面上有很多的数据建模分析书籍,绝大多数图书的目录组织方式无外乎两种类型:一种是工具型,以介绍建模分析软件、语言、框架为主;另一种是算法型,以介绍模型算法、调参、优化等为主。而以案例为主的建模分析图书较少,且其中往往以算法为主干,配合行业典型案例进行讲解。这样的材料组织方式有助于开阔眼界,但容易“博而不专”,无法让读者将案例融入具体行业。对于具体行业的新手来说,一本以案例为主的金融垂直领域的算法手册会更有帮助。
最后,数据建模分析的目的是服务业务。纵向来看,其纵贯业务经营的全流程,这需要我们使用一系列模型来支持获客营销、客户画像、价值预测、交叉销售、风险控制、运筹优化、客户维系等工作;横向来看,建模分析师要对接业务前端需求与后台的应用部署,这就要求建模分析师不仅要懂业务、懂数据、懂模型,还要了解数据治理体系、工程化实现等,这对工作流程中的协同有重要作用。从这个角度看,市场上也需要能涵盖分析框架、算法案例、工程化实现的图书。
鉴于以上原因,笔者认为需要写一本专注于金融垂直领域、支持业务全流程需求、以业务引领的建模分析手册,为广大从业者的工作和学习提供便利。本书以Python和SAS EM为工具,致力于为熟悉金融业务的你打造一套工具模板,使你可以轻松地根据需求展开分析工作,并能对当前工作的上下游流程加深理解,以便更好地开展协同工作。
本书主要内容
本书主要内容如下。
(1)金融数据挖掘的九大分析模板
本书从业务需求角度出发,探讨统计建模、机器学习模型在金融领域的应用,包括客户价值预测、营销响应预测、细分画像、交叉销售、申请反欺诈、违规行为识别、预测技术、运筹优化、流程挖掘等九大分析模板,形成模板化的工作流。同时,对模型算法做了重点讲解,方便读者理解模型本身,并在实际工作中应用。
(2)实践案例
本书主要涉及SAS EM以及Python建模分析实践,一方面介绍如何结合案例背景形成分析思路,以及在面对特定问题时调优模型,另一方面介绍工具的基本使用,使不熟悉SAS EM和Python的读者能够快速上手。
(3)算法工程化
本书为编程新手构建良好的工程代码结构和编写优雅的工程代码提供建议。
读者对象
本书主要面向金融行业的广大业务分析师、咨询师、数据建模师、算法工程师,同样适合有志于从事金融行业的在校学生和数据建模分析爱好者阅读。数据建模分析在金融行业的应用历史悠久,相关研究十分深入,因此对于从事电商、通信、传统贸易、制造等行业的从业者来说本书也有重要的借鉴价值。
内容特色
本书更多地从业务应用场景来组织内容,意在更加贴近业务,而非单纯罗列算法。经过与业内专家的反复探讨,本书提取了在行业应用中价值最大、最常用的9类场景,力图提供不同场景中构建数据应用的最佳实践。本书涉及的算法不局限于传统统计分析,也结合了金融业务的需求,解构了机器学习、深度学习的前沿方法,并提供了丰富的示例代码,以方便读者借鉴。
如何阅读本书
本书的定位是“手册”,这意味着你可以根据需求单独查阅相关章节的内容。不过,笔者仍然建议你通读全书,不仅因为本书涉及的算法存在一定的前后关联性,而且因为这可以让你在大脑中构建一套商业分析工作的全流程。如果你拥有充足的时间并希望建立完整的数据建模分析体系,笔者建议你合理分配时间,反复阅读本书。
第一遍,快速通读,形成印象。这一步其实非常重要,当你能够在大脑中构建本书的一个大致的体系框架时,你已经理解了金融建模分析的工作内容和要求,并能在本书中快速定位所需的解决方案。你可以在这一步跳过算法公式和程序代码。
第二遍,选择性地精读相关章节。具体选择哪部分取决于你工作中遇到的实际问题,只有结合实践才能更好地理解并发散思维。精读意味着需要耗费时间研究业务问题的特点、数据特征和模型细节,一方面最好能结合实际数据进行扩展,另一方面在某些重点、难点上需要阅读大量相关参考资料进行佐证。虽然本书不是纯粹的编程技术书,但代码仍然非常重要,并且使用了多个数据建模分析框架。尤其对于新手来说,一定不要只是“跑”代码,而是要“敲”代码。
第三遍,通读全书,并关注其中的一些细节,例如数学公式、参数调优等。这有助于你加深对模型的理解,并更好地运用模型。需要注意的是,自然语言永远没有数学语言表述得精确,因此建议读者尽量结合数学公式来理解模型。
技能是从不断重复中得来的。我们可以通过一些技巧在减少重复次数的情况下更快地掌握技能,但根本上,重复是掌握技能的唯一有效手段。共勉!
资源和勘误
请关注微信公众号“数据资管”,下载书中的演示数据和脚本,观看教学视频,交流问题和反馈意见,也欢迎发送邮件至453288431@qq.com,期待得到你们的真挚反馈。