Ceph企业级分布式存储:原理与工程实践
上QQ阅读APP看书,第一时间看更新

1.4.1 分析类应用场景举例

由于大数据分析中捕获的数据量巨大,并且需要在数据专家和数据分析师团队之间共享有限的资源,因此传统的数据分析基础架构承受着巨大的压力。各方呼吁推出一种全新的架构和存储形态。一些数据平台团队正在将Apache Hadoop和Spark大数据分析平台作为其数据分析的主要工具,后端采用Hadoop分布式文件系统(HDFS)集群。不幸的是,由于HDFS通常不会在不同集群之间共享数据,因此在大型计算集群中的每个集群间复制数据会付出很高的代价。

一些团队希望其集群的分析工具尽量稳定,因此不愿意更新版本,而其数据分析的业务单元需要加载最新的分析工具版本。最终,这些团队都构建了自己单独的、量身定制的分析集群,以免与其他团队竞争资源。使用传统的Hadoop时,每个单独的分析集群通常都有自己专用的HDFS数据包。

为了在不同的Hadoop / HDFS集群中能访问相同的数据,平台团队必须在集群之间复制非常大的数据集,以保持数据的一致性和时效性。因此,公司维护了许多单独的固定分析集群(其中一家公司中有50多个集群)。每个集群在HDFS中都有自己的冗余数据副本。就资本支出(Capex)和运营支出(Opex)而言,在各个集群上维护5PB、10PB或20PB副本数据的成本都非常高。

Ceph和IaaS云、PaaS云的结合为解决上述一系列问题提供了新的方案。Ceph在底层多集群间可以实现数据自动同步,这大大降低了集群数据复制的开销和运营成本,为Hadoop或Spark的大数据分析工具提供了另一种分布式存储选择。