大数据运营与管理:数据中心数字化转型之路
上QQ阅读APP看书,第一时间看更新

1.2 数据中心演进历程

正如前文提到的,数据中心的概念可谓“源远流长”,最早可追溯到1945年美国生产的第一台全自动电子数字计算机“埃尼阿克”(英文缩写词是ENIAC,即Electronic Numeri-cal Integrator and Calculator,中文意思是电子数字积分器和计算器)。它在革命性地开启了人类计算新时代的同时,也顺带开启了与之配套的数据管理和应用的演进历程。事实上,纵观计算机发明后的20余年,人类社会的数据计算存储方式经历了从集中主机到分散运算到再次集中的过程,这个过程当然不是简单往复的。

真正意义上的数据中心的概念,是随着互联网的兴起而产生的。数据中心通过实现统一的数据定义与命名规范、集中的数据环境,从而达到数据共享与利用的目标。数据中心按规模划分为部门级数据中心、企业级数据中心、互联网数据中心以及主机托管数据中心等。

从功能特征上来看,随着技术的发展和对大数据认识的深入,数据中心的内涵已经发生了巨大的变化。从功能内涵上来看,可以将数据中心的演进划分为四个大的阶段,即数据存储中心阶段、数据处理中心阶段、数据应用中心阶段、数据运营服务中心阶段。

1.2.1 数据存储中心阶段

1946年,Jan A.Rajchman团队发明了静电记忆管,这是世界上最早的随机存取数字存储器(RAM),在真空管内使用静电荷对数据进行存储。1947年,出现了磁芯存储器。其原理是磁芯根据磁化时电流的方向可以产生两个相反方向的磁化,这就可以作为0和1的状态来记录数据。磁芯存储器在20世纪70年代被广泛用作计算机的主存储器。1951年,人们开始在计算机上使用磁带,磁带具有寿命长、性价比高、容量大等优点。1973年,硬盘诞生。这种硬盘有几个同轴的金属盘片,盘片上涂着磁性材料。它们与能够移动的磁头共同密封在一个盒子里面,磁头从旋转的盘片上读出磁信号的变化。这就是我们今天使用的硬盘的祖先——IBM公司把它叫作温彻斯特(Winchester)硬盘,也称温盘。1980年,第一款GB级容量硬盘由IBM公司推出,容量达2.5GB。1987年,磁盘阵列出现。磁盘阵列(Redun-dant Arrays of Independent Drives,RAID)是由很多块独立的磁盘组合成一个容量巨大的磁盘组,可以让很多磁盘驱动器同时传输数据,而这些磁盘驱动器在逻辑上又是一个磁盘驱动器,所以使用RAID可以达到单个磁盘驱动器几倍、几十倍甚至上百倍的速率。

数据存储设备的不断演进为数据中心的数据存储提供了基础,尽管在那时候甚至还没有出现真正意义上的数据中心的概念。真正意义上的数据中心的概念是在20世纪90年代提出的,目的是为了解决企业信息化系统大量建设后出现的数据孤岛效应,能够将企业内部的数据集中到一个地方进行存储,以便作为企业生产和发展的“历史记忆”进行统一管理。

因此,在数据存储中心阶段,数据中心主要承担的功能是数据存储和管理,在信息化建设早期,用来作为OA机房或电子文档的集中管理场所。此阶段的典型特征有以下四个方面:

第一数据中心仅仅是便于数据的集中存放和管理。在这个阶段,数据中心存在的意义比较单一,就是作为一个“仓库”,将企业内部各种各样的数据集中起来存储,并进行统一的管理,不会对这些数据进行任何处理和加工,数据几乎都是以原始数据的形式存在。

第二数据的存储和使用都是单向的。在这个阶段,数据中心的数据使用方式也很单一,就是提供给需要的用户进行查询。所以,这个阶段的数据中心的数据存储和使用都是单向的。就像一个仓库,里面的货物从采购渠道购买后存进来,哪个部门需要,再通过提货单领出去。

第三数据中心稳定运行主要依靠救火式的维护。在这个阶段,数据中心本质上就是一种信息化系统。因此,对于数据中心日常运行的维护与其他业务系统的维护没有区别,基本上都是在出现问题的时候由运维人员进行处理。而且这些运维人员往往并不是专职的,而是与其他系统共用的。当然,这也跟数据中心在这个阶段的重要性并不突出有很大关系。

第四数据中心会关注新技术的应用。这个阶段数据中心主要是存储数据,因此,数据中心主要会关注数据存储和访问方面的新技术。比如,更新的数据存储硬件,更大的数据存储容量,更快的数据读写性能等。总之,主要还是要解决数据更好存储的问题。

总体上来看,在数据存储中心阶段,由于数据中心的功能比较单一,对整体可用性的需求也比较低。可以这么说,这个阶段的数据中心在整个企业中的存在感并不强,仅仅在非常有限的场景中才会发挥极其有限的作用。

1.2.2 数据处理中心阶段

数据处理技术是随着存储介质的发展而逐渐发展的技术,其实早在电子计算机发明之前就有数据自动处理技术了。在进入电子计算机时代后,存储介质经历了三个时代,数据库管理系统模型也具有明显不同的特征。

20世纪五六十年代,使用磁带作为主要的存储介质,磁带是一维的存储系统,只支持向前和向后两个方向访问数据,所以访问效率很低。这个时候数据管理系统使用的数据模型是网状模型和层次模型,统称为引导模型,引导信息是从一个节点到另一个节点所经过的路径。

20世纪60年代末到70年代初,磁盘系统出现了,在磁盘上磁头可以在磁道上高速访问数据,也可以在磁道间移动,可以认为这是一个二维的存储系统,只要知道数据的访问坐标,便可以快速访问该数据,无须在一条路径上折返。在磁盘的访问特点下,引导模型显得不合时宜了,因为这类数据模型不能表示多对一和多对多的这类关系。

1970年E.F.Codd发表了一篇跨时代的论文,标志着关系模型的出现,关系模型简单易用,程序员不必关心数据存储的底层细节。一批商业系统如Oracle、DB2、Ingres的出现,推动了关系型数据库的成熟,关系型数据库在主流应用中逐渐取代了层次模型和网状模型,数据库技术正式进入关系时代。由于关系模型和主程序的阻抗失谐等问题,现在我们基本上把关系模型数据库和支持事务处理的数据库画了等号。

20世纪90年代以后,随着数据规模的增长,商业领域对分析类的需求增多,数据库领域的数据处理技术创新主要集中在OLAP方向上,例如充分利用多核的SMP技术、数据分区、降低I/O的列式存储技术、利用多台设备进行并行处理的MPP技术等。

第三个时代是进入21世纪,互联网技术的兴起、PC的普及,使每个人都成为数据的主动生产者。尤其是紧接着到来的移动互联网时代,个人与移动设备合一,成为数据的被动生产者,每时每刻都会产生大量的数据,而且数据的形式多样。大数据时代到来了。在大数据时代,传统的商业系统由于封闭的原因,难以跟上大数据处理的需求。

被誉为Google三驾马车的三篇论文,奠定了大数据处理的基础。但Google的内部系统并不开源。不过,Yahoo的开发者很快就根据Google的论文开发出了开源大数据处理平台Hadoop,MapReduce成为大数据处理的主要工具,基于KV存储的HBase受到了追捧。随之而来的是对关系型数据库的质疑、“NoSQL运动”兴起等。

而关系型数据库领域的泰斗们并没有被大数据处理的狂热所动,Michael Stonebraker就一直对MapReduce抱有怀疑态度,认为完全是用一种暴力计算的方式解决问题。没过多久,就由UC Berkeley的学生在Hadoop的基础上推出了Spark。Spark借鉴了传统关系数据库的一些技术,计算效率远超MapReduce。很快,Spark与Hadoop进行了融合,成为新的大数据处理平台。

近十几年间,Vertica、Greenplum、Vectorwise、VoltDB等新兴的关系型数据库也逐步成熟,致力于解决大数据中高价值的关系数据分析领域的性能问题。这个趋势被称为New SQL,并且几乎每个分析型关系数据库都会将自己的SQL引擎架设在HDFS之上,形成融合的解决方案。

在数据处理中心阶段,数据中心计算能力得到极大的提升,开始承担核心计算的功能,但仍主要面向OLAP领域。此阶段的典型特征有以下五个方面:

第一数据中心主要面向核心计算。在数据处理中心阶段,数据中心最主要的职责从单纯的存储数据变成了计算数据。但此时由于处理能力的限制以及数据作用的单一,计算的目的主要是针对企业核心的经营管理指标进行统计,或者围绕企业重要的决策事项进行辅助。总之,这个阶段数据中心提供了一些数据处理结果,但这些结果用处单一、应用范围不广,主要为企业的核心事务和高层管理人员服务。

第二数据中心可提供数据单项应用。正如上文所说,此阶段的数据中心因为具备了数据处理的能力,也被赋予了这样的职责。对于用户来说,数据中心已经可以为他们提供更多的服务了。这个时候,针对企业一些重要的工作事项,比如要对长期以来一成不变的产品进行大幅度调整,但不知道这种必要性和可行性强不强。这时就可以在数据中心上构建一个单项应用,基于对历史数据的分析,结合调整后一些参数的变化,来预测和评估这种调整的必要性和可行性。可见,数据中心已经开始从一个“仓库”逐步在向“智库”的方向演进了。

第三企业开始组织专门的人员进行集中维护。这时的数据中心的重要性已经逐步显现,因为它的大规模数据处理能力是其他业务系统所不具备的,但又恰恰是企业管理者最需要的。在这种情况下,企业就会针对数据中心组建专门的运维团队,开展更加周密的维护工作,以确保数据中心不间断地稳定运行,从而满足管理者随时随地的统计和辅助决策需求。

第四对计算效率及企业运营效率的提高开始关注。随着数据中心作用的逐步显现,对其数据处理计算性能的要求也变得越来越高。对于中层管理者和一线员工来说,谁都不希望老板要一个统计数据,数据中心得需要经过几天的计算才能得到。而且对于瞬息万变的市场来说,几天的时间足够让一个商机悄悄溜走了。因此,这时数据中心的计算效率从某种程度上与企业的经营管理效率有了更加紧密的关联,得到的关注也越来越多了。

第五数据中心整体上可用性仍旧较低。尽管数据中心的关注度越来越高,也开始参与企业经营管理,发挥数据的作用,但不可否认的是,数据中心此时的可用性仍旧有限,也不具备大面积支持企业进行科学管理、高效运营的能力。当然,这种说法是基于与现在相对比的,实际上数据中心基本上已经可以满足当时处在萌芽阶段的数据分析应用需求了。

数据处理中心阶段是数据中心演进过程中重要的一个阶段。正是从这个阶段开始,数据中心开始从存储数据向使用数据转变,从而让企业的管理者开始认识到数据的重要性。这些都为后续数据中心的进一步发展奠定了基础,明确了方向。

1.2.3 数据应用中心阶段

数据中心最终的目的还是要使用数据。各种各样的数据应用才是发挥数据中心作用、释放数据价值的重要途径。随着基于机构广域网或互联网的大型应用开始普及,信息资源日益丰富,挖掘和利用信息资源日益受到关注。这一阶段,组件化技术及平台化技术得到广泛应用,数据中心具备了核心计算和核心业务运营支撑的功能,满足业务领域不断变化的数据使用需求成为其核心特征之一,而“信息中心”也成为该阶段数据中心典型的代名词。

对于数据中心来说,基于其构建的数据应用也经过了一定的发展过程。在数据应用早期,最主要的就是要让用户找到数据、访问数据。这个时期的数据应用主要是以搜索引擎的形式存在的。Google作为全球最大的搜索引擎公司,也是我们公认的大数据鼻祖,它存储着全世界几乎所有可访问的网页,数目可能超过万亿规模,全部存储起来大约需要数万块磁盘。你可能会觉得,如果只是简单地将所有网页存储起来,好像也没什么了不起的。没错,但是Google需要构建搜索引擎才能得到这些网页文件,这需要对所有文件中的单词进行词频统计,然后根据PageRank算法计算网页排名。

随着数据中心在企业的逐步普及,数据应用也从搜索和访问数据为主,向提供数据挖掘、数据分析等复杂功能的方向演进,从而帮助企业在市场营销、生产增效、科学决策等方面做得更好。现代生活几乎离不开互联网,各种各样的应用无时无刻不在收集数据,这些数据在后台的大数据集群中一刻不停地被进行各种分析与挖掘,这个进程只会加速不会停止,你我只能投入其中。

当前,随着人工智能等技术的涌现和不断成熟,数据应用的自动化、智能化水平得到极大的提升。数据应用中心不仅是企业数据应用集中部署的平台,而且从某种程度上具备了一定的“思维”能力,尽管这种“思维”能力还是建立在海量的数据逻辑的基础上,但客观上确实比以往经验式管理决策提供了更多的科学依据。

可见,数据应用中心阶段,是基于数据处理技术的丰富和发展,进而促进各种类型数据应用爆发式增长的阶段。可以说,目前绝大部分企业数据中心均处在数据应用中心阶段。

数据应用中心阶段主要有以下五方面的特征。

第一面向业务需求数据中心提供可靠的业务支撑。坦率地讲,在数据应用中心阶段,计算能力已经不再成为数据中心需要时刻关注的要素了。计算机、互联网等技术的快速发展使得绝大多数企业的数据中心在存储和计算能力方面几乎都是过剩的。在这种情况下,数据中心更多的是要考虑需要构建哪些数据应用,从而满足业务提出的层出不穷的支撑需求。由于有了成熟的技术保障,数据中心为业务提供的数据应用和服务支撑是比较稳定可靠的。

第二数据中心提供单向的信息资源服务。数据中心构建了越来越丰富的数据应用,可以支撑的业务场景也越来越多。但是,这个阶段的数据中心仍然是以技术部门、技术人员为主导的技术性平台,通过数据与技术的结合,以数据应用等形式单向地向业务提供信息化支撑。有的是开发完应用让业务人员自己使用,有的甚至要技术人员帮业务人员用,然后得出一个结果给业务部门。可见,即使到了这个阶段,数据中心的数据应用绝大部分是为业务服务的,但是数据中心本质上还是一个后台信息化系统,业务人员还是不会到数据中心来提供业务知识或直接自助生产。

第三对系统维护上升到管理的高度从事后处理到事前预防。在这个阶段,数据中心的重要性就更加明显了,甚至某种程度上成为企业进行经营管理的核心系统之一。因此,这时对数据中心的维护要求就更高了,很多问题已经不仅仅是通过技术能力的加强就能解决的了,需要从整个管理机制体系的层面进行全面考虑。由于一旦发生问题,影响面很大,因此需要从处理问题向预防问题的方向转变,这样才能满足企业内部自上而下多个部门的使用要求。

第四数据中心开始与技术人员的绩效挂钩。一旦上升到管理高度,老板就更重视了,很多事情就必须与考核相关。一样的道理,以前的数据中心大家都不够关注,好一点差一点无所谓;现在不一样了,大老板关注了,所有围绕着数据中心开展工作的运维人员、开发人员、管理人员都会有明确的考核指标要求,这些指标都与这些人的直接经济利益挂钩,以督促和鞭策这些人做好本职工作,保障数据中心的稳定性,提升业务支撑能力。

第五数据中心要求较高的可用性。随着数据中心在企业中重要性的不断提升,对数据中心软硬件能力的要求越来越高。数据中心的业务人员(用户)无法忍受长时间的等待和间歇性宕机等问题,甚至有些挑剔的用户对数据应用的用户交互都会吹毛求疵。因此,虽然这个阶段的数据中心的稳定性和可靠性相较前一个阶段已经得到极大的提升,但用户的抱怨反而会比前面任何阶段都会多很多。

数据应用中心阶段的数据中心,数据存储和计算已经成为一种基础性、保障性的能力,前端的数据应用得到极大丰富,有的甚至呈现爆发式增长。数据中心由此方式逐步开始融入企业经营管理的各个领域,技术人员的重要性得到前所未有的提升。

1.2.4 数据运营服务中心阶段

从现在的技术发展趋势分析,基于互联网技术的、组件化的、平台化的技术将在各组织得到更加广泛的应用。同时,数据中心基础设施的智能化,使得组织运营借助IT技术实现高度自动化,组织对数据和自动化系统的依赖性加强。数据中心将承担组织的核心运营支撑、信息资源服务、核心计算、数据存储和备份等功能,并确保业务可持续性计划的实施。业务运营对数据中心的要求将不仅仅是支持,而是提供持续可靠的服务。在这个阶段,数据中心将演进成为机构的数据运营服务中心。

数据中心发展到数据运营服务中心阶段具有以下六个方面的典型特征。

第一数据中心的运行可靠性得到极大提升。数据中心运营的好坏,最重要的是看连续正常运行时间,而永远不必担心基础设施利用率下降的问题。事实上,如果数据中心运营得很好,可能根本就不会听到员工的抱怨。因为他们正忙着努力维持正常运行时间的承诺,并让客户发展他们的业务。

当然,即使是发展到数据运营服务中心阶段,也并不意味着数据中心不会出一点问题。更重要的是在这个阶段,围绕数据中心建立的运营服务体系日趋完善,通过严格的流程和程序,几乎可以消除人为错误的威胁。同时,随着智能化程度的提升,可以及时检测和发现潜在的威胁,并在问题出现之前解决它,从而提升了运行稳定性。

第二数据中心与业务融合度不断加深。此阶段的数据中心已经不仅仅是单向地向业务端提供信息和输出数据,而是成为数据和业务双向影响、相互碰撞、交错融合的平台。在这种模式下,技术人员更关注数据中心基础能力和数据整合能力的夯实,业务人员直接基于业务需求利用数据中心基础能力和整合好的数据进行业务生产。两者在某种程度上已经成为数据中心运营的一个完整的团队。

此外,数据中心基础能力和数据支撑的适应性变得更强,数据应用具备随机应变的快速构建能力,运营管理机制更加柔性,与业务运营融合在一起,甚至可以实现实时的互动。可以说,此时的数据中心已经很难将业务与技术独立分开了。

第三服务质量超越服务效率成为关注重点。当数据中心的基础能力已经足够完善的时候,其本身的工作效率就不再成为一个需要关注的问题了。在数据运营服务中心阶段,服务效率这个词已经很少有人提起,取而代之的是服务质量。这里的服务质量主要包含两个方面的含义,一是整个基于数据中心构建的服务体系是否高效,响应是否快速;二是通过数据中心为用户提供的服务内容是否优质,数据是否准,应用界面是否友好等。

因此,这个阶段的数据中心应该围绕着流程、技术和人员提供一个服务等级协议(SLA)。但是SLA并不能证明数据中心是否履行了该协议。因此这些SLA应该有衡量和评价的标准,以确保其遵守。通常的做法是将SLA的指标与考核指标相关联,甚至有的企业就直接拿SLA指标作为数据中心运营服务团队的关键KPI。

第四数据中心最主要的目标是确保数据价值最大化。在数据运营服务中心阶段,数据中心不仅要管理和维护各种数据资源,更重要的职责是要运营数据资源,并通过各种各样的服务方式提供出去,甚至会通过数据产品的形式直接面对外部市场,为企业带来可见的经济效益。

数据以及数据的衍生品变成了能够换取“真金白银”的东西,数据中心的目标不仅仅是存好数据、做好内部支撑了。基于数据价值不会衰减、几乎可无限复用等特点,不断挖掘数据价值,并将数据价值最大化就成为数据中心在这个阶段最重要的目标。

第五数据安全成为新的管理热点和红线。大数据促使数据生命周期由传统的单链条逐渐演变成为复杂多链条形态,增加了共享、交易等环节,且数据应用场景和参与角色愈加多样化,在复杂的应用环境下,保证国家重要数据、企业机密数据以及用户个人隐私数据等敏感数据不发生外泄,是数据安全的首要需求。海量多源数据在数据中心汇聚,一个数据资源池同时服务于多个数据提供者和数据使用者,强化数据隔离和访问控制,实现数据“可用不可见”,是大数据环境下数据安全的新需求。

数据安全的重要性越来越显著。尤其对于大型央企、国企来说,数据涉及国计民生,甚至国家安全。这时数据安全就显得格外重要。同时随着国家在数据安全领域立法的不断完善,数据安全已经成为整个大数据行业的“高压线”,所有企业应当高度重视。

第六汇聚合作伙伴构建产业生态。数据中心发展到数据运营服务中心阶段,还有一个更重要的特点,就是此时的数据中心可以作为数据合作的技术载体,它的使用者和用户已经不仅仅是企业内部的人员,而是可以吸引越来越多的外部的单位、人员来到数据中心进行合作开发和共同运营。

同时,数据中心也会“敞开怀抱”,以企业业务和产业链定位为基础,有效整合产业数据,构建产业服务新业态,逐步形成在行业、产业内有影响力的大数据生产力。

数据运营服务中心阶段的数据中心,数据已经成为一种与社会生产紧密结合的要素,而且其价值已经不仅仅局限在企业内部,而是更多地以各种形式走出去,与更广泛的数据进行融合,从而促进整个行业、产业和社会的不断发展和进步。