第一章 大数据时代的传播新生态
第一节 大数据的特征及其技术转变
从谷歌成功预测冬季流感的传播,到亚马逊完成智能书籍推荐;从奥巴马选举获胜,到一名父亲通过数据统计分析精确预测儿子的高考成绩,数据已经成为我们生活中不可或缺的资源和工具,深刻地影响着各个领域的发展。
大数据是计算机领域又一次革命性的技术革新。随着移动互联网和云计算技术的快速崛起,人类社会的信息容量和信息类型正在呈几何级数增长。资料显示,2011年全球新产生的数据量已达到1.8ZB(1ZB等于100万PB或1万亿GB),这大大超过了2011年以前人类信息量的总和。人类社会的“大数据”时代已经到来。
一、大数据的特征
大数据已经成为全球关注的新技术和新理念。大数据是什么?对此业界和学界众说纷纭,暂时没有统一的答案。维基百科(Wikipedia)认为:大数据是难以用现有的数据库管理工具处理的兼具海量特征和复杂性特征的数据集成。国际著名咨询公司麦肯锡在其报告“Big data:The next frontier for innovation, competition, and productivity”中认为大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。
英国作家——被誉为“大数据商业运用第一人”的维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)在《大数据时代》一书中指出:大数据并非一个确切的概念,大数据意味着不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
针对不同的研究对象和研究视角,大数据应该被赋予不同的内涵与价值。在我国,学界较认可的定义为“所谓大数据是这样的数据——规模大、非结构化、数据集彼此无关联,需要快速地分析,且其分析依赖于新兴的技术和人才。一般来讲,大数据的基本特征可以归纳为4个‘V':规模性(volume)、多样性(variety)、高速性(velocity)和价值(value)等特点”。
第一,规模性(volume),是指数据的容量大。大数据是大型数据集,其规模和增长速度都远远超过传统数据集。不同于原有的TB级别,大数据时代,数据量级已达到PB甚至是EB级别。数据量的增长趋势呈几何级数增长,2001年,数据流量累计达到1EB(即10亿GB或1000PB)的时间需要一年,2004年减少到只需一个月,到2013年则仅需一天——到目前为止,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。
第二,多样性(variety),是指数据类型繁多。总体上数据可以被分为结构化数据和非结构化数据。大数据所包含的数据类型繁多,既有不同类型的结构化编码数据,也有图片、视频、报表、地理位置信息和XML、HTML等半结构化或非结构化数据,数据类型早已不是单一的文本形式。相较于以往便于存储的结构化数据,越来越多的非结构化数据类型也对数据处理能力提出了更高要求。
第三,高速性(velocity),是指数据处理速度快,这是大数据区别于传统数据挖掘的最显著的特征。随着移动终端、移动互联网、物联网、云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据随时随地被大量生产出来,面对海量数据,人们对于数据的分析和处理也需要快速,才能满足需求。
第四,价值(value),是指数据价值密度较低,数据总量与其产生的价值密度呈反比。在海量的信息中,存在着大量的不相关信息。大数据本身的价值密度相对较低,需要不断从海量数据中挖掘。单个、分散的数据价值含量较低,但通过深入分析挖掘,却能找到数据之间的关系,产生巨大的经济及社会价值。数据挖掘和数据预测也是大数据应用的核心目的和意义所在。
二、大数据的技术转变
云计算是大数据时代最具代表性的技术革新。“美国国家标准与技术研究院(NIST)将云计算定义为一种资源利用模式,它能以简便的途径和按需使用的方式通过网络访问可配置的计算资源(网络、服务器、存储、应用、服务等)。这些资源可快速部署,并能以最小的管理代价,或只需服务提供商开展少量的工作就能实现资源发布。”云计算为大规模数据的存储、处理、搜集、运用提供了基础架构平台,使大数据应用成为可能。
基于以上数据特点和技术平台优势,洞察了当前社会发展的复杂性和多变性的谷歌、亚马逊等互联网公司率先发现了数据资源的价值,并展开了多层次、多角度的数据搜集与利用。这些大数据领域的先行者,不再将数据当作其他资源的附庸,而是开始了以数据为核心的变革与发展。当数据能够独立创造价值,当其他领域越来越依赖数据来判断现状、制定决策、预测未来时,我们才真正地进入了“大数据时代”。这是一个用数据重构思维、指引方向的时代,也是一个用数据颠覆传统、重塑新生的时代。
随着数据深入生活,影响我们的决策和行动,大数据正在推动社会发生三大转变,即不再依赖于随机抽样而是处理所有数据,精确度让位于搜集更多数据的可能性,相关关系取代因果关系成为人们追求的新选择。这些转变不仅在商业、公共安全以及人们的思维模式等领域深刻践行,还在传播领域书写着新的传播变革。