世界是随机的:大数据时代的概率统计学
上QQ阅读APP看书,第一时间看更新

3.1 从样本到总体:管中窥豹

前面两章,我们学习了概率的基础知识,本章我们一起来认识概率的亲兄弟——统计。

如果说概率论像一个理想主义的“文艺青年”,统计学则是一个务实精干的“普通青年”,在统计学中没有那么多“假设”和“近似”,统计学研究实实在在的数据,从数据中发现规律,再利用规律指导我们的行动。因此,数据是统计学的基础。

在统计学中,数据被自然的分为两类:样本与总体。举个例子,假设味多美公司刚刚出品了一款巧克力慕斯蛋糕,为了检验这款蛋糕的受欢迎程度,味多美在很多超市里举办免费试吃,并让试吃者填写一份简单的调查问卷。试吃活动进行了两周,收到了一万多份问卷。味多美整理分析了这些调查问卷的内容,针对不同年龄、不同性别的消费者各自进行了分析,发现年轻男性十分喜欢这款蛋糕,于是味多美决定,到中关村和理工科大学去推广这款蛋糕。在这个虚构的例子中,味多美公司想要测试新款蛋糕的受欢迎程度,如果它可以让所有消费者都试吃一次,那么它就可以从试吃结果中精确地找到喜欢这款蛋糕的人群,这么做成本高的离谱,显然无法实现。于是它退而求其次,挑选几个超市开展试吃活动,吸引一部分消费者来品尝,获得他们的反馈。从统计学的角度来看,“所有消费者的反馈”是总体,“部分消费者的反馈”是样本。

总体,是指一个试验中所有可能的观察值。这些观察值有时是有限多个,比如全校学生的身高;有时是无限多个,比如宇宙中的所有行星,统计学的目标是研究总体中包含的统计学规律。然而,总体往往难以全部获得,因此,我们从总体中抽取一部分观察值,通过研究它们的规律推理出总体的规律,这部分被抽取出来的观察值就是样本。从样本推测总体,正如管中窥豹,虽然只“可见一斑”,却依然要从这“一斑”推想出“全豹”。

数据会说谎

前面我们提到,数据是统计学的基础,要学习统计学,首先要学会正确地看待数据,有时数据是会说谎的。

有这样一个思想实验。很久很久以前,有一个原始人,住在现在的北京所在的地方。他每天早晨从山洞里跑出来,迎接日出,然后出去捕猎,直到太阳落山后,才跑回山洞里睡觉。一天又一天,太阳升起又落下,每天晚上入睡时,他都十分确信,明天早晨,太阳会照常升起。在另一个地方,一个特别寒冷的地方,也有一个原始人。他的头上一直悬着一个太阳,于是他以为,太阳会永远发光。忽然有一天,太阳消失了,消失得无影无踪,刺骨的寒冷夺去了他的生命。直到死去,他也不明白,太阳究竟去哪儿了。

两个原始人看到了同一个太阳,却对太阳的认识相去甚远。这个简单的思想实验告诉我们,样本的规律未必能代表总体的规律,你以为太阳升起落下是必然规律,是因为你没去过北极。

在统计学中,由片面的样本推理总体的规律往往会以偏概全,这种现象被称为“幸存者偏差”,更通俗的说法是——“死人不会说话”,第二次世界大战时期美国战斗机的故事正说明了这一点。

第二次世界大战时期,美英联军出动大量战斗机,对德国展开大规模空袭,但是德军强大的防空火力让美英联军遭受重创。为了对抗德军的防空火力,美英联军找来了飞机领域的多位专家,要求他们研究战斗机的受损情况,对飞机的设计制造提出改进意见。飞机专家们对执行任务归来的飞机进行了仔细地检查,发现几乎所有的飞机的机腹都伤痕累累,于是专家们建议,加固机腹。可是,美英联军最终没有采纳飞机专家的意见,反而加强了对机翼的防护。这是因为,国防部的一位统计学家认为,能够幸运返航的飞机,机翼大多完好无损,这说明,被击中机翼的飞机都坠落了,而仅被击中机腹的飞机却能够顺利返航,说明机腹不是要害部位,不需要进行加固。因此,他建议美英联军加强对机翼的防护。

在上面的事例中,飞机学家由于缺少统计学知识,错把顺利返航的飞机与被击落的飞机混为一谈。他们把“顺利返航的飞机”作为样本,来推测总体的规律,恰恰掉入了“幸存者偏差”的陷阱中。反观统计学家,从总体出发来寻找规律,虽然他无法观察到被击落的飞机,但他观察顺利返航的飞机之后,推测出了被击落的飞机可能的受损情况,进而提出加固建议,是更合理的解题思路。这个例子除了提醒我们提防“幸存者偏差”之外,还告诉我们,弄清研究对象十分重要,被击落的飞机才是正确的研究对象。

另有一类数据也容易混淆视听,那就是“小概率事件”相关的数据。小概率事件是一些生活中非常稀有但切实发生的事件,最常听到的就是彩票中大奖和被雷劈。小概率事件的发生概率也是通过数据计算出来的,比如,要计算被雷劈中的概率,只需要用被雷劈中的人数除以总人口便可以得到,大约接近百万分之一。然而,小概率事件由于样本十分稀少,往往容易出现大幅波动,引起人们的误解。

马航370事故让空难再次发酵成一个热点话题,在民航领域,衡量民航安全的重要指标是致死事故率,它是指每一百万次航班中的致死事故总数。在20世纪后半叶,由英国和法国联合研制的协和式超音速客机是全世界最安全的客机,在2000年7月的空难发生前,协和式飞机共飞行了约八万次,从未发生过致死事故,因此致死事故率为0,与之同期的波音737飞机,飞行了约一亿五百万次,致死事故率为0.41。然而,2000年7月,协和式飞机不慎发生空难,仅仅这一次空难,使协和式飞机的致死事故率瞬间升至12,一跃成为全球最危险的飞机!

另一个例子是谋杀率。谋杀率是衡量一个国家是否安全的重要指标,在任何一个长期稳定的国家,一年里发生的谋杀案都很少,在13亿人口的中国如此,在不足千人的梵蒂冈也是如此。梵蒂冈是全世界人口最少的独立主权国家,只有不足千人,由瑞士卫队保卫国家安全。多年来,梵蒂冈从未发生过谋杀案件,直到1998年5月4日晚,瑞士卫队队长阿洛伊斯·埃斯特曼和妻子被枪杀。这一晚之后,梵蒂冈的谋杀率瞬间达到五百分之一,领跑全球谋杀率排行榜,成为全世界最不安全的国家。后来,梵蒂冈回归了宁静,谋杀率也重新降回零。

小概率事件总是很少发生,由数据计算出的发生概率是否有意义,值得质疑。很多时候,小概率事件的概率只是新闻媒体的噱头。从概率统计的角度来看,它只能告诉我们,这件事很少发生。

抽样

前面我们提到,从总体中抽取一部分可以获得样本。在统计学中,这个抽取的过程叫作抽样。

抽样有自己的方法,最简单、最常用的抽样方法是简单随机抽样,比如味多美可以随机挑选几个地方举办蛋糕试吃活动,并在活动过程中随机招揽路人来试吃。在试吃活动中,味多美的服务人员可以给参加试吃的人免费发放购物袋,这样他们就可以辨认出哪些人已经参加过试吃活动,不再招揽他们参加试吃,这就是不重复随机抽样。如果味多美放任所有人试吃,不做任何筛选和限制,就是重复随机抽样。

在简单随机抽样中,重复抽样和不重复抽样都是常见的抽样方式。比如,同样是福利彩票,33选7的双色球采用的是不重复抽样,排列3、排列5采用的是重复抽样。在进行数据抽样时,我们根据事件的需要选择抽样方式。

除了简单随机抽样,还有其他几种抽样方法。一个是分层抽样,仍以味多美为例,服务人员可以分别邀请年轻女性、年轻男性和儿童参加试吃活动,也就是按照年龄和性别对人群分组,再进行抽样,这就是分层抽样,也可以理解为先分组再抽样;另一个是整群抽样,假定新款的蛋糕有草莓、樱桃和杧果三种配搭的水果,服务人员可以将蛋糕分装到不同的盒子中,每个盒子里放置草莓、樱桃和杧果蛋糕各一块,让消费者们整盒的进行试吃,这种抽样方法便于对比,从对比结果可以看出哪种口味更受欢迎。还有一些抽样方法,本书不再一一介绍,无论采用什么方法,我们的终极目标都是采集到能够代表总体的样本。

读到这里,想必读者会有这样的疑问:现在都是大数据时代了,还需要抽样吗?诚然,在互联网行业里,抽样的概念的确过时了,正如《大数据时代》一书所说:“在大数据时代进行抽样分析就像在汽车时代骑马一样。”在互联网行业,样本几乎就是总体,谷歌、苹果和淘宝这些公司甚至不需要刻意的搜集数据,只需要利用互联网软件记录下人们在手机和计算机上的每一次触碰和点击,便完成了数据采集。但是互联网不能代表一切,很多数据并不能从互联网上搜集,比如前面例子中提到的试吃体验数据。所以,在互联网力所不及的领域,采用抽样的方法搜集数据仍是必要的。