大数据架构师指南
上QQ阅读APP看书,第一时间看更新

前言
Foreword

毫无疑问,这是属于大数据的时代。随着移动互联网的进步、自媒体的风行和物联网的兴起,信息传播技术和信息传播渠道得到极大发展,海量级甚至银河级的数据不断涌现,呈现出“信息爆炸”的态势。这种情况下,似乎我们获取信息变得更加容易和方便;而实际上,由于对个体有用的信息淹没在浩如烟海的无关信息中,获取“有用信息”反而变得更加困难。

大数据相关技术就是在这种情况下应运而生的。作为一门新兴技术,大数据技术被人熟知和掌握需要一个过程;同时,由于其始终处于一个高速发展的过程,对其认识也是不断修正提高的过程。

鉴于此,本书总结了中兴通讯大数据平台DAP团队对大数据技术的最新研究成果,结合中兴大数据平台在各行业的应用实践经验,旨在帮助读者建立系统化的大数据技术脉络,并针对业界一些似是而非的问题进行系统性的讲解与澄清。阅读完本书,读者就可以基本掌握大数据技术的系统架构和核心思想。

为何要写这本书

在大数据项目建设过程中,往往需要三个层次的知识。第一个层次是关于大数据是什么,能做什么等理念方面的知识;第二个层次是如果去端到端进行大数据方案设计,要厘清大数据方案所需的关注重点,并结合具体的实践案例进行说明;第三个层次是大数据相关的基础技术知识,例如,对HDFS、MR、SPARK等技术点的掌握。

第一个层次的书籍,业界已经有很多,其中以《大数据时代》为典型代表;第三个层次的书籍,业界也比较多,读者不难获得相关的学习材料。

但第二个层次的书籍,属于承上启下的层次。该层次的知识需要从实践中总结出经验与知识。由于大型项目的建设周期长,建设复杂度高,涉及面广,所以从大型项目的实践中总结出知识有较高的难度。鉴于此,市面上该层次的大数据书籍相对较少,大数据相关的从业者或建设者较难获得这方面的知识,往往只能通过各类交流活动获取这方面的知识,不仅费时费力,而且难以将这些知识系统化。

基于如上原因,我们感觉迫切需要将我们在大型项目中积累的经验总结出来,供业界同仁参考,同时,这也可以满足我们内部人员学习大数据相关知识的需求。

本书读者对象

如果您是IT市场营销人员,或者是企业IT主管,您可以直接阅读本书的第一部分与第三部分。通过对本书第一部分与第三部分的阅读,将帮助您建立起大数据技术概念和框架。如果您对具体的大数据技术不感兴趣,可以忽略掉第二部分纯技术的内容。

如果您是大数据技术人员,本书将会是一本较好的参考资料,有助于帮助您超越自己所从事的具体模块,将您的大数据知识体系系统化。

如果您是高校大数据相关课程的老师,由于本书较为系统,可以考虑将本书作为参考书或者教材。

如果您是大数据技术爱好者,也可以将本书作为泛读书籍,让您理解当前大数据的时代。当然,读者如果能具备一定的IT基础知识,将能够更好地汲取本书中的知识。这不仅有助于您快速理解大数据相关知识,也有助于启发您对特定专题的深入思考和独到分析。

本书特色

本书是首本系统化的方案实践方面书籍,系统化地阐述了大数据方案应该如何思考,以及大数据的技术基础知识,并辅以实际的案例进行说明。

以客户化的语言,描述大数据项目建设中应该重点考虑的问题。即使不是技术专家,也能很容易地理解本书第一部分的内容。

较为系统地阐述了大数据相关的体系,可以帮助读者迅速系统化大数据相关的知识。

结合实际的案例,总结在大数据建设实践中的经验与知识。

如何阅读本书

本书内容分为四大部分,不同的读者可以选择不同的内容进行阅读。

本书第一部分是“大数据架构师入门”,以虚构角色小明的视角,去理解大数据,理解客户的烦恼,并提出构建一个大数据系统时应该从哪些方面考虑。阅读完该部分后,读者将对大数据方案具备一定的“提问题”的能力。也就是说,如果您面前有一份大数据的建设方案,即使您以前对大数据了解甚少,也可以根据本书第3章的建议,去评判方案的完整性,评判方案的深度与广度。

本书第二部分是“大数据架构师基础”,本部分将较为系统地介绍大数据相关的基础知识。如图Ⅰ-1所示,逐个介绍基础支撑层、计算存储层、中间件层、挖掘分析/应用层、展现层各部分内容,同时,对贯穿各层的安全和管理两大模块的相关内容做介绍,力图为读者呈现一个相对完整的大数据知识架构。

图Ⅰ-1 大数据技术框架

其中,计算存储层包括Hadoop架构、Spark架构、分析挖掘组件等内容;中间件层包括中间件的作用与意义,以及业界常用中间件及应用场景;展现层包括可视化相关的知识与内容;安全模块包括物理安全、主机安全、网络安全、数据安全等内容;管理模块包括自动部署、自动升级、自动巡检、自动维护等内容。

本书第三部分是“大数据架构师实践”,主要包括大数据开发实践中积累的一些经验,并结合案例进行阐述。这些实战中积累的知识与智慧,将帮助理论联系实践,更好地理解大数据技术。

本书第四部分是“大数据架构师拓展”,主要包括与大数据相关的其他技术。这些技术通常来说,并不属于大数据的技术范畴,但由于这些技术与大数据关系紧密,作为一名架构师,也需要系统地了解与思考这些相关的技术,才能对整个方案进行全局把握。该部分将试图对这些技术进行简单介绍,并试图说明这些技术与大数据之间的关系。

对于不需要关注具体技术的读者,则可以仅阅读第一部分“大数据架构师入门”;如果对具体的案例感兴趣,则可以阅读第三部分“大数据架构师实践”;如果是对技术感兴趣的读者,则可以阅读第二部分“大数据架构师基础”与第四部分“大数据架构师拓展”。

本书编写团队

大数据的知识非常广泛,不同层面的知识,以及不同技术模块的知识,很难由一个人完全掌握,所以本书是编写团队共同努力的成果。编写团队的成员都是在大数据领域担当重要工作岗位的技术骨干,大家在共同的理想与爱好下,聚集成一个团队,并为大数据架构师们完成了业界首本全面实践指导类的书籍。在此,请允许我列举参与编写的团队成员,并向他们致以诚挚的谢意。感谢他们牺牲周末与节假日的休息时间,为大家做的无私贡献。

团队成员包括:申山宏、梁平、薛清华、李敏、郭海生、杨荣康、牛家浩、刘少麟、管云、洪科、简明、张强、艾红芳、关涛、刘淑霞、郭进良、汪绍飞、周治中、王利学、黄增建。

勘误与支持

尽管我们尽了各种努力来保证文章不出错误,但由于编者水平有限,加上编写时间仓促,难免会有错讹之处。如果你在书中发现了错误,例如错别字、书写错误等,请告诉我们,我们将整理成勘误表。通过勘误表,可以帮助其他读者节省阅读时间,提高阅读体验,并可以帮助我们提供更高质量的下一版。

错误反馈请发送至邮箱zhou.zhizhong@zte.com.cn,或者关注“中兴大数据”微信公众号(微信号ZTE_BigData)并留言,我们将在第一时间确认反馈。勘误表可以在“中兴大数据”微信公众号上获取。

致谢

感谢中兴大数据平台DAP团队的所有成员,你们多年的潜心研究和积累是本书的基石。

感谢所有评审本书,并对本书提出过建议的朋友,你们的帮助对我们非常重要。

感谢关心本书的各界朋友,你们的关心与期望是我们的动力,更是对我们全心全意写好这本书的鞭策。