
3.4.1 重大IT事件应急处置案例
该案例从某银行数据中心的一场火灾开始,到该银行基于同城灾备中心重新支撑业务运营为止,通过8个分镜头中的13个画面,如图3-2至图3-14所示,全面展示了IT事件应急处置过程和IT事件应急处置所需要的组织与人员、流程与任务、IT系统、工具与设施等要素。

图3-2 机房着火

图3-3 火灾预警——报警器自动报警

图3-4 火灾预警——机房环境监控人员报警

图3-5 火灾预警——现场紧急响应

图3-6 总行重大IT事件应急响应

图3-7 火灾抢救抢修——启动气体灭火

图3-8 火灾抢救抢修——大厦人员疏散

图3-9 火灾抢救抢修——消防队灭火

图3-10 IT损害评估

图3-11 灾难研判

图3-12 灾备人员集结

图3-13 信息系统灾难恢复

图3-14 灾后重续运行
1.分镜头一“机房着火”
2014年7月11日凌晨0:00,燥热的空气笼罩华东大地,人们大都沉浸在睡梦中,某省会城市的一幢老式办公大厦如往常一样沉静。突然,一缕青烟从大厦9层南侧的窗缝中喷涌而出(见图3-2)。
2.分镜头二“火灾预警”
大厦9层,正是某商业银行信息科技部的中心机房所在地,该机房部署的信息系统支撑着该银行所有的日常业务,9层是该银行当之无愧的“心脏地带”。此时,大厦9层的火灾自动报警系统被触发,机房防火门旁边的火灾声光报警器开始不停地闪烁并发出刺耳的警报声(见图3-3)。
此时,在位于大厦10层的数据中心监控大厅里,机房环境监控人员正平静地盯着电脑屏幕上机房环境监控系统的画面。突然,机房环境监控系统发出了烟感、温感警报。他立刻被警醒,即刻查看机房视频监控系统的画面,发现火苗正在从机房东南侧的一个机柜的地板下蹿出,机柜号为F9-3-12,他立即按照机房火灾预警方面的要求向监控大厅内的IT运维值班经理汇报火情(见图3-4)。
IT运维值班经理听完火情汇报后,紧接着收到了IT系统监控人员传来的“IT集中监控系统显示核心应用系统大面积故障”的消息。IT运维值班经理即刻向所有现场人员宣布“启动机房火灾应急预案”,并按照预案要求开始救火指挥工作。在确认机房内没有在场人员、火势暂时不会对机房之外的人员造成伤害后,IT运维值班经理立即指示机房环境一线值班人员采取灭火措施,之后打电话通知大厦物业值班经理(见图3-5)。
0:05, IT运维值班经理通过电话将核心应用系统因火灾而可能导致严重损毁的消息及事态可能的衍变情况报告给了信息科技部领导。
信息科技部领导(兼任IT应急领导小组组长、总行应急领导小组成员)从睡梦中被持续的电话声吵醒,在接到IT运维值班经理的重大IT事件汇报后,他首先通过部门专用的微信群通知各运维部门负责人(兼任IT应急领导小组成员),然后拨通行长(兼任总行应急领导小组组长)和总行办(兼总行应急领导小组办公室)的电话汇报事故情况,之后匆忙赶往数据中心。
各运维部门负责人接到信息科技部领导的微信通知后,即刻通知部门内的二线技术支持人员赶往数据中心监控大厅。
总行办主任即刻启动“总行重大IT事件应急预案”(见图3-6),首先通过总行自动呼叫系统(该类系统能够在数分钟内通过事先定义的联络设备如移动电话、办公电话、家庭电话、短信、电邮等同时通知数千名工作人员)联系总行应急领导小组成员(包括行长及总行办公室、风险管理部、科技开发部、业务部门、品牌管理部、计财部、法律合规部、物业管理部等部门的负责人)接入电话会议,并通知总行应急领导小组成员尽量到总行应急指挥中心(距离中心机房1km远)集结。
3.分镜头三“火灾抢救抢修”
0:02,机房环境一线值班人员按照IT运维值班经理的指示,即刻采取了机房灭火措施。有人通过消防通道快速到达大厦9层设备间,果断地切断机房电源,快速地按下机房外墙上的气体灭火系统紧急启动按钮,有人拨打了119电话报告火情,有人在路口等待引导消防车辆(见图3-7)。
0:05,大厦物业值班经理在得知火情后,即刻启动“大厦人员疏散计划”。通知大厦内各单位负责人指挥本单位人员按照疏散路线快速撤离大厦。该银行数据中心员工在IT运维值班经理的指挥下,按照“大厦人员疏散计划”中的疏散路线快速撤离了大厦。0:15,大厦人去楼空。经各单位清点,没有人员伤亡(见图3-8)。
0:25,消防队在接到火警后到达现场,IT运维值班经理向消防队负责人报告火情及目前采取的救援措施,然后在消防队的指挥下配合消防队的专业救火行动,并随时向信息科技部领导汇报应急处置情况(见图3-9)。
4.分镜头四“IT损害评估”
0:30,火灾被彻底扑灭。IT运维值班经理带领当日一线值班人员脚踩泡沫踏入满眼疮痍的机房。经初步评估,两个机柜的设备被烧毁,核心应用系统磁盘阵列设备完全报废,7m2的机房地板及大量线缆被烧毁,重要信息系统全部中断,在短期内根本无法修复IT系统,该事件完全符合灾难性事件的特征。IT运维值班经理立即将评估结果上报给信息科技部领导(见图3-10)。
5.分镜头五“灾难研判和宣告”
0:40,总行应急领导小组成员召开的电话会议已经进入尾声(见图3-11),之前,总行应急领导小组已经完成了以下会议过程。
1)信息科技部领导持续汇报了事故最新情况。汇报内容依次如下。
(1)中心机房0:00起火,起火根由不明,已启动机房火灾应急预案和人员疏散计划,没有人员伤亡,核心业务已经停止运行。
(2)已启动气体灭火系统,人员已疏散完毕,没有人员伤亡,核心业务已经停止运行15min。
(3)消防队投入救火行动,IT应急领导小组和所有技术支持人员已经待命,核心业务已经停止运行25min。
(4)灭火完毕,没有人员伤亡,两个机柜的设备被烧毁,核心应用系统磁盘阵列设备完全报废,7m2的机房地板及大量线缆被烧毁,大厦已取消临时戒严,人员通行已经恢复,核心业务已经停止运行30min。
(5)根据IT损害评估结果,事件性质属于明显的灾难性事件,建议启用信息系统灾难恢复预案,将中心机房的所有重要信息系统切换到同城灾备中心,预计切换耗时80min。由于同城灾备中心的业务数据不存在丢失,不需要业务数据补录,但在IT系统恢复后需要业务功能验证。
2)业务部门建议启动手工应急业务流程,建议IT部门尽快执行灾备系统切换。
3)总行办公室牵头品牌管理部和信息科技部等商议了对外口径。
4)风险管理部指出了监管报告要求。
5)总行应急领导小组组长最终下达决策:该突发事件属于重要信息系统灾难性事件,立刻启动灾难恢复流程,对外口径是“数据中心发生火灾,正在执行同城灾备切换,火灾原因待查”,立即向银监局主管人员汇报。
6)企业各条线基于总行应急领导小组的决策确定了本条线的行动事项并通知了相关团队,其中包括以下几点。
(1)信息科技部领导(兼任IT应急领导小组组长)与IT应急领导小组其他成员首先一起确定了灾难恢复相关事项,包括需要启用的灾难恢复预案、启用的灾备切换流程、启用的应急指挥中心、灾难恢复操作方式(包括自动化方式、手工方式,自动化方式指基于自动化灾备指挥与切换平台执行主要的灾备切换操作)。然后通过专用RTX群向灾难恢复团队下达了灾难恢复通知,通知内容包括“速到大厦9层应急指挥中心集结,基于自动化方式执行同城灾难恢复预案中的灾备切换流程”。
(2)业务条线应急领导小组决定启动在无IT系统可用场景下的业务应急预案和客服应急预案,并下达了业务恢复通知。
(3)总行办决定启动“总行危机公关计划”,并对危机公关行动作出初步安排:总行办在信息科技部、业务部门、品牌管理部的支持配合下,确定对外口径,应对媒体、主要客户和利益相关方的询问,定期向公众公布灾难恢复状况信息;总行风险管理部向银监局、中国人民银行等监管机构发出通知;行长向董事会汇报。
(4)应急保障小组各负责人成员纷纷确定了财务、安全、法律、场地、邮政、通信、交通、饮食等的应急保障事项。其中,总行计财部门决定启动“保险理赔计划”,总行物业管理部着手安排基础设施损害评估与维修相关的事宜,等等。
6.分镜头六“灾备集结”
0:45,作为灾难恢复团队ECC组的一员,ECC一线值班人员逐条检查了ECC环境,确保灾难恢复操作所需要的网络、工位、大屏、电话会议等准备就绪。作为灾难恢复团队机房环境组的一员,同城灾备中心机房环境一线值班人员逐条检查了机房环境系统,确保机房环境系统准备就绪。
0:50,灾难恢复团队中的自动化灾备指挥与切换平台组成员到达了9层应急指挥中心,检查平台的运行情况。
1:00,灾难恢复团队技术总指挥(兼IT应急领导小组成员)到达大厦9层应急指挥中心,登录了“自动化灾备指挥与切换平台”,开始着手灾难恢复技术指挥工作。灾难恢复团队技术总协调(兼IT应急领导小组成员)到达大厦9层应急指挥中心,登录了“自动化灾备指挥与切换平台”,开始着手灾难恢复技术协调工作。
1:03,灾难恢复团队中的网络组、操作系统组、存储组、数据库组、应用组、信息安全组、运行监控组成员陆续到达了9层应急指挥中心,在指定的工位就座并登录“自动化灾备指挥与切换平台”,部分组员在家中通过远程VPN系统登录了自动化灾备指挥与切换平台,应用组通知了与本应用相关的业务功能验证小组成员。
1:04,灾难恢复团队技术总协调清点了人员,确认灾难恢复团队成员集结完毕,确认自动化灾备指挥与切换平台就绪,确认机房环境就绪,确认ECC环境就绪,确认帮助台人员就绪,然后向技术总指挥汇报“人员集结完毕,灾备切换条件就绪”(见图3-12)。
7.分镜头七“信息系统灾难恢复”
1:05,灾难恢复团队技术总指挥单击“自动化灾备指挥与切换平台”中的“启动计划外同城灾备切换”按钮,该平台开始按照预定的灾备切换流程,一方面将“自动化切换任务工单”提交给“灾备切换平台”内在的自动化任务调度程序,自动化任务调度程序自动执行切换任务,另一方面将“人工切换任务工单”提交给预定的灾难恢复团队成员,灾难恢复团队成员手工执行切换任务,在任务执行完毕后单击平台中的“工单执行完毕”按钮。
1:40,同城灾备系统全部启动完毕。
1:55,已经在支行营业部集结的业务功能验证小组成员按照“业务功能验证计划”执行完了业务功能验证步骤。
2:00,信息科技部领导向总行应急领导小组汇报“同城灾备系统切换执行完毕”,业务运营管理负责人(兼业务条线应急领导小组组长)向总行应急领导小组汇报“业务恢复完毕”(见图3-13)。
8.分镜头八“灾后重续运行”
在业务恢复完毕后,总行应急领导小组宣布进入“灾后重续运行”阶段(见图3-14),并作出以下决策。
(1)由信息科技部启动“重续运行期间同城灾备中心运维管理计划”。
(2)由各业务部门启动“重要信息系统灾后重续运行期间业务运营计划”。
(3)由业务客服部门启动“重要信息系统灾后重续运行期间客户服务计划”。
(4)由总行各应急保障部门启动“重要信息系统灾后重续运行期间运营保障计划”。
信息科技部领导立即通过信息科技部专用RTX群下达了“灾后重续运行团队成员速到灾备中心就位”的命令。各部门也都在当夜紧锣密鼓地准备着灾后重续运行相关事宜……
新的一天开始了,同城灾备中心因信息科技部灾后重续运行团队成员的大量来临而变得人声鼎沸,各支行营业部的告示牌上张贴着新更换的业务产品及业务功能列表,各支行营业人员在有条不紊地为客户提供着服务,客服中心坐席人员在电话中不厌其烦地给客户解释着当前业务范围的变化,同城灾备中心的停车场停放着后勤保障部门准备的崭新的员工班车……