大数据架构师指南
上QQ阅读APP看书,第一时间看更新

3.5 运维管理要求

大数据时代,企业IT架构的不断扩展,网络也变得更加复杂,服务器、存储设备的数量越来越多,从而给运维工作带来了巨大的挑战,特别是分支机构众多的大型企业或垂直层级较多的政府单位,为了保障良好的用户体验和数据时效性,运维工作显得十分艰巨。

传统IT系统维护的机器数目相对较少,运维管理系统主要提供监控界面、告警处理、作业上线等。但大数据集群将面对成百上千甚至上万台规模的集群,并且多个集群可同时运行,多种组件服务相互依赖,将让系统的诊断与测试变得非常困难。例如,如何防止个别作业异常导致整个集群不可用,就是一个较为困难的问题。

对于大数据运维管理系统来说,需要考虑如下的问题或因素。

其一,对于上百台甚至上万台的服务器、网络设备、存储设备等,如何让这些设备稳定地运行在生产环境中,不会因为硬件损坏、系统升级而引发业务系统故障?一旦故障发生,运维人员如何评估故障对业务的影响有多大?需要多少时间和工作量恢复?

其二,如何应对系统规模与业务规模的快速膨胀?如何预防新上线大规模作业对集群性能造成冲击,甚至让整个集群失效?

其三,不同应用、甚至不同的计算框架在同一集群下运行,如何对各类作业、资源、数据进行管理,并满足安全性要求?

通过上述所需考虑的问题,不难看出传统的IT运维思路和运维方法已难以满足大数据系统海量数据存储、计算、应用和安全、部署等多种需求。因此,梳理相关的运维管理要求是系统规划阶段的重要工作。