揭秘云计算与大数据
上QQ阅读APP看书,第一时间看更新

1.3 关于云计算效率的讨论

1.3.1 公有云效率更高?

误解:公有云具有更高的效率。首先我们需要知道效率到底指的是什么。这是个亟须澄清的概念。在这里效率是指云数据中心(我们将在后文中介绍其定义)中的IT设备资源利用率,其中最具有代表性的指标就是CPU的综合利用率。当然,如果把诸如内存、网络、存储等因素都考虑进来会更全面,不过为了便于讨论,我们在本小节着重讨论CPU的资源利用率。

在数据中心中,我们习惯用电能利用效率(Power Usage Effectiveness,PUE)表示电力资源的利用率,它的计算式为PUE值=(C+P+I)/I,其中,C表示制冷、取暖等为保持机房环境温度而耗费的电量,P表示机房中非IT设备供电所耗费的电量,I表示IT设备耗电量。显然PUE值不可能小于或等于1,事实上全球范围内大多数云机房的PUE平均值大于2,而先进机房的PUE值几乎可以达到1.1,甚至是1.06,说明先进机房有着相当惊人的高电能利用率。我国从2013年开始要求新建数据中心的PUE值小于1.5,原有数据中心改造后的PUE值小于2,见表1-4。图1-22中列出的是2020年艾瑞咨询研究院公布的我国数据中心能耗分配情况,在PUE值等于2.0的情况下,IT设备能耗占比最大,制冷系统能耗次之,照明及其他设备能耗是最少的。此外,即使使用的技术相同,数据中心在不同地区的指标也不尽相同。例如,年平均气温较低的区域用于制冷系统的能耗会大幅降低,PUE值就较低。当然,各地的PUE要求也不同,一线城市和东部地区更为严格,且不同地区的电价也不同。

61077-00-030-1

图1-22 我国数据中心能耗分布情况(PUE值=2)

表1-4 部分城市的年平均气温和数据中心PUE要求

61077-00-031-1

公有云的CPU资源利用率会高于私有云的吗?让我们用数据来说话,图1-23展示了数据中心能耗分配情况,图1-24列出了目前市场上主流的公有云/私有云服务器主机CPU的平均利用率。

61077-00-031-2

图1-23 数据中心能耗分配情况

图1-24中的数据清晰地说明了公有云服务器主机CPU的平均利用率远低于私有云,甚至亚马逊公司的AWS和微软公司的Azure都只有10%左右,相当于每10台服务器中只有一台在满负荷运转而另外9台在空转。同比私有云环境下的谷歌公司,其服务器主机CPU的平均利用率可以达到30%,曾是易安信(EMC)公司旗下的Virtustream甚至能达到惊人的70%。

61077-00-032-1

图1-24 公有云、私有云服务器主机CPU的平均利用率比较[1]

公有云IT资源利用率较低的成因是公有云业务场景的多样化与负载高度的不可预知性。当CPU资源在被分配给某用户后,如果没有被该用户充分利用,就会出现CPU空转,进而造成事实上的浪费的情况。同样的问题也存在于其他资源分配上,例如网络带宽、磁盘空间等,这是基于时间共享“虚拟化”的必然结果。类似的基于时间共享技术的应用还有很多,比如蜂窝网络。时间共享的设计原则是“公平分配”,以确保每个被服务对象在单位时间内可获取同样多的资源,但平均主义也会造成在均分资源后因资源被闲置、空转而形成的事实浪费。

如何提高云数据中心的资源利用率呢?从数据中心能耗分布的角度而言,云主机服务器组件(尤其是CPU)每消耗1 W,不间断电源(Uninterruptible Power System,UPS)、空调制冷,以及配电箱、变压器等其他设备就会连带消耗1.84 W。反之,如果能让CPU少消耗1 W,那么这会为整个数据中心节能2.84 W。图1-25是艾默生电气公司(Emerson)网络能源的统计数据。我们称这种瀑布流式的“级联”效应为叶栅效应、级联效应。

61077-00-032-2

图1-25 Emerson网络能源的统计数据

现在我们知道提高效率的核心是提高CPU的利用率或降低单位时间内整体CPU的能耗,这两个方向的最终目标是一致的。

绝大多数的数据中心在提高资源利用率、降低能耗上有以下两种不同的路径:

(1)优化供给侧;

(2)优化需求侧。

优化供给侧并非本书关注的重点,不过为了全面起见,我们在此略作介绍。优化供给侧可以从以下几个方面来实施。

(1)在数据中心供电环节与发电环节上进行优化。

① 围绕储能系统的效率进行优化。

② 围绕数据中心发电环节进行优化。

(2)在数据中心机房温度控制环节上进行优化

① 优化空调制冷系统。

② 优化空气流动系统。

在数据中心中,市电先通过交流电到直流电的转换对储能系统进行充电,储能系统中常见的设备是UPS(或飞轮)。图1-26中列出了三大类数据中心储能系统,常见的是电化学储能,即我们常说的UPS。机械储能系统也经常被用到,电磁储能较少见,但未来如果相关技术有所突破,相信它在储能效率上也会得到相应提高。之后,UPS再把直流电转换为交流电为电源分配单元(Power Distribution Unit,PDU)供电。在这个二元连续(交流电—直流电—交流电)的转换过程中,电力存在损耗,以及生成大量废热需要制冷系统来降温。结合图1-23可知,供电与空调制冷的能耗占整个数据中心能耗的10%~47%,这里的范围表示从只供电但不制冷到既供电又制冷的能耗范围。

61077-00-033-1

图1-26 三大类数据中心储能系统

如何提高UPS效率,甚至是找到UPS替代方案是业界主要的努力方向。谷歌公司的经验是采用分布式UPS及电池系统直接对服务器机柜进行交流供电,在此过程中仅需要一次交流电到直流电的转换,由此可达到99.9%的UPS效率,远高于业界的平均效率(80%~90%)。其他常见的做法还有提高UPS到PDU电压、更新/升级UPS或直接对服务器进行高压直流输电等。

UPS替代方式越来越受到业界的重视。例如燃料电池技术和智能电源虚拟化技术,它们的一个共性是在整个供电过程中不再需要UPS、PDU和变压器单元,开关设备也变得简单。图1-27展示了使用软件定义电源技术前后数据中心配电系统的变化。

61077-00-034-1

图1-27 使用软件定义电源技术前后数据中心配电系统的变化

数据中心有严格的温度与湿度控制机制,保证IT设备在最优环境下发挥性能。新建的数据中心及改造的数据中心通常都会对冷热气流进行管理,例如服务器机柜冷热通道交替排列、规范布线。数据中心冷热气流管理如图1-28所示,服务器机柜冷热通道交替排列如图1-29所示,规范布线前后对比如图1-30所示。

61077-00-034-2

图1-28 数据中心冷热气流管理

61077-00-034-3

图1-29 服务器机柜冷热通道交替排列

61077-00-035-1

图1-30 规范布线前后对比

我们在本小节中简要介绍了云数据中心供给侧的一些优化方式。在下一小节中,我们将主要关注云数据中心需求侧的优化手段。