因果推断:基于图模型分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 绪论

近年来,大数据(big data)一词越来越多地被提及,人们经常用它来描述信息爆炸时代所产生的海量数据,也用它来定义与之相关的一系列数据建模、分析技术的发展与创新。《纽约时报》2012年2月的一篇专栏文章认为,大数据时代已经来临,在商业、经济及其他诸多领域中,决策将日益基于数据和分析而做出,而并非基于经验和直觉。越来越多的政府、企业等机构也意识到大数据分析能力正在成为组织的核心竞争力。事实上,大数据分析的应用在我们的生活中随处可见,例如,当你把微博等社交平台当作日记或者发表议论的工具时,金融界的高手们却正在挖掘这些互联网应用的“数据财富”,先人一步用其预判市场走势,取得了不错的收益。大数据分析在各行各业得到了广泛的应用,包括:

● 基金公司基于大数据分析投资者的情绪,拟定股票交易策略;

● 电商公司根据客户网页浏览行为大数据的分析结果进行商品推荐;

● 投资机构爬取购物网站的顾客评论文本,进而分析、推断企业的产品销售和财务状况;

● 风险投资基金采集求职网站的岗位数据,从而推断各个细分领域的行业发展趋势;

● 投资银行搜集上市公司的网络信息和公开披露信息,从中寻找企业经营的蛛丝马迹,实现风险控制;

● 疾病预防和控制中心基于网民搜索数据,分析全球范围内流感等病疫的传播状况。

在辉煌的大数据热潮中,有大数据分析从业者骄傲地声称:“我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,但在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系。”这样的看法真的对吗?我们来看几个辛普森悖论的有趣例子。