IT应急预案编写指南

系统应急响应及恢复预案编写指南

2011年7月1日

目 录

修订说明: ................................................................................................................ 4 修订记录 .................................................................................................................... 6 1.

总则 .................................................................................................................. 7

1.1. 1.2. 2.

目的和依据 ............................................................................................... 7 适用范围 ................................................................................................... 7

系统及资源 ...................................................................................................... 9

2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. 2.10. 2.11. 3.

系统信息 ................................................................................................... 9 系统描述 ................................................................................................. 10 运行指标 ................................................................................................. 10 关联系统 ................................................................................................. 12 物理架构 ................................................................................................. 12 网络拓朴 ................................................................................................. 12 IP及端口 ................................................................................................ 12 系统软硬件 ............................................................................................. 12 后备资源 ................................................................................................. 14 用户分配 ............................................................................................. 15 其他信息 ............................................................................................. 15

标准处置预案 ................................................................................................ 16

3.1. 4.

标准处置 ................................................................................................. 18

故障快速定位 ................................................................................................ 21

4.1. 快速定位流程 ......................................................................................... 21

4.2. 4.3. 5.

定位流程描述 ......................................................................................... 21 故障快速定位排查内容 ......................................................................... 21

系统应急场景分类及描述 ............................................................................ 22

5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 6.

故障场景分类 ......................................................................................... 22 硬件故障场景 ......................................................................................... 22 通用软件故障场景 ................................................................................. 26 应用软件故障场景 ................................................................................. 28 网路故障场景 ......................................................................................... 29 其它故障场景 ......................................................................................... 30 恢复回切场景 ......................................................................................... 30

附录 ................................................................................................................ 31

附录一:人员联系表 .............................................................................................. 31 附录二:应急演练方案 .......................................................................................... 32 附录三:应急演练报告 .......................................................................................... 32 附录四:故障应急报告 .......................................................................................... 32 附录五:故障现场收集脚本 .................................................................................. 32

修订说明:

北京数据中心于2011年3月推出《北京数据中心总体应急预案V1.0》(简称总体预案)和《中国建设银行XX系统应急响应及恢复预案(模版V3.0)》(简称新预案模板)。

总体预案主要适用于北京数据中心信息系统突发事件的处理,并指导各信息系统编制系统应急预案。在总体预案中,对事件分级及处置原则、中心应急组织架构及职责、应急响应及恢复流程、应急预案管理等内容进行了描述。

新预案模板主要用于指导数据中心各系统应急新版预案的修订工作。新预案模板在V2.0版本基础上,对架构和内容进行了全面的修订,重点加强了系统应急管理、故障快速定位和故障场景等内容的描述。可确保特定系统发生突发事件时,应急人员能依据预案预设内容,规范处置和快速恢复应用。系统预案中相关的事件分级、处置和应急流程等在总体预案中都有详细描述。在修订过程中,编制人员可参照总体预案进行新版预案的修订。

新预案模板由六章组成,分别是总则、系统及资源、标准处置预案、故障快速定位、系统应急场景分类及描述和附录。新预案模板与V2.0版预案在文档结构对照关系可参见下表:

新预案模板保持了应急预案版本建设的连贯性,减少了预案版本升级所可能产生的困难和产生的工作量,便于预案修订人员参考使用。本编写指南在主体结构与预案模板也基本保持一致,希望能帮助预案修订人员顺利完成新版应急预案修订工作。

修订记录

说明:每次系统升级及变更配置后,都必须对应急预案做相应的修订,确保这些变化造成的影响能够在应急预案模版中反映出来并使之符合系统现有状况。预案维护人员严格执行版本控制,在预案内容更新后时应该确保相关人员都能及时得到最新版本。 示例:

1. 总则

1.1. 目的和依据

说明:请在此简要描述本预案编制的主要目的,本预案在建设银行业务持续性突发事件应急响应及恢复工作(以下简称“应急响应及恢复工作”)过程中所发挥的作用和执行的功能,以及编制本预案的主要依据。

示例:

防垃圾邮件网关系统(MGAT)应急预案(以下简称MGAT预案)是邮件网关系统遇到紧急情况或运行中断后为恢复邮件网关服务所采取的快速有效的应对手段。通过建立包含应急启动、执行、恢复等流程、步骤和技术操作方案,为系统相关组织、人员处理应急情况提供指导;并作为与总行其他应急相关人员进行协调的依据。

1.2. 适用范围

说明:请在此明确本应急预案的具体适用范围。如指明该预案适用于因XXX突发事件所导致的建设银行XXX业务发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。

示例:

本系统应急预案适用范围是北京数据中心与本系统有关的所有组织体系和人员,适用于北京数据中心邮件网关系统的运行所需的功能,操作和资源。该预案适用于因邮件网关系统突发事件所导致的建设银行邮件收发发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。邮件网关系统简称为MGAT,产品英文名称为Websense 邮件网关。

2. 系统及资源

2.1. 系统信息 应用系统中文全称:

说明:请在此描述应用系统在北京数据中心(或ITSM系统中)的中文全称。

应用系统英文缩写:

说明:请在此描述应用系统在北京数据中心(或ITSM系统中)的英文简称。

应用系统负责部室:

说明:请在此描述应用系统在数据中心(或ITSM系统中)的负责部室。

应用系统管理员:

说明:请在此描述应用系统在数据中心(或ITSM系统中)的应用预案修订人员A/B角或者管理团队。

平台系统管理员:

说明:请在此描述应用系统在数据中心(或ITSM系统中)的平台预案修订人员A/B角或者管理团队。

网络管理员:

说明:请在此描述应用系统在数据中心(或ITSM系统中)的网络管理员A/B角或者管理团队。

2.2. 系统描述 系统功能:

说明:请在此描述应用系统的主要功能。

支撑业务:

说明:请在此描述应用系统所支撑的所有业务应用。

业务影响范围:

说明:请在此描述应用系统故障后可能影响的范围。 2.3. 运行指标

说明:请在此补充应用系统的常用的一些运行指标,如恢复时间目标(RTO,Recovery Time Objective) 恢复点目标(RPO,Recovery Point Objective)、运行维护级别、可用性要求,性能要求,业务连续性要求,安全性要求,可管理性要求,可维护性要求等。 运行指标解释:

1)恢复时间目标(RTO):是指突发事件发生并导致业务或系统中断后,从中断到必须恢复的时间要求。

2)恢复点目标(RPO):是指突发事件发生并导致业务或系统中断后,数据必须恢复到的时间点要求,即数据可容忍丢失的最大时间长度。

注意:恢复时间目标(RTO)和恢复点目标(RPO)是必填项。在营业不同时间段(业务高峰、业务空闲和非业务时间)如对RTO/RPO有不同要求,请单独列举。 示例:

邮件网关系统运行指标

恢复时间目标(RTO):0分钟。 恢复点目标(RPO):10分钟。 运行维护级别:5*8(8:30 - 17:30)。 可用性要求:全年系统可用性达到99.9%。

性能要求:系统最大并发连接数 8000 个 TCP连接,邮件处理速度 >150 封/秒,邮件延迟时间平均值

业务连续性要求:7*24连续运行。

安全性要求:防攻击性能参数 >170,000 次/小时 包括字典攻击、目录攻击、病毒攻击、压缩文件攻击等。

2.4. 关联系统

说明:请在此描述与该系统运行相关的其它关联系统情况,如:何种关联系统?所涉及何种业务等。 2.5. 物理架构

说明:请在此描述系统物理拓朴结构及简要描述(包括放置在哪个机房,物理如何连接、以及何其他系统的关联拓扑等)

2.6. 网络拓朴

说明:请在此描述系统网络拓朴结构及简要描述

2.7. IP及端口

说明:请在此描述简要描述系统使用的IP地址及端口(请填写包括带外管理在内的所有网络地址和端口)

2.8. 系统软硬件 2.8.1. 主机设备

说明:请在此描述主机设备的具体配置及参数。

示例:

2.8.2. 软件配置

说明:请在此描述系统安装的各种软件的具体信息及用途,请将系统所用软件按系统软件、中间件、数据库、应用等进行划分。 示例:

2.8.3. 磁盘/磁盘阵列

说明:请在此描述系统所用的磁盘及磁盘阵列。

2.8.4. 磁带存储

说明:请在此描述系统所用的磁带存储。

2.8.5. 网络设备(如路由器、交换机、负载均衡等) 说明:请在此描述系统专用的各种网络设备

2.8.6. 其它硬件设备(如加密机等)

说明:请在此描述系统专用的各种硬件设备。

2.9. 后备资源

说明:请在此描述系统各种后备资源,如系统的数据备份、硬件配件、软件备份等资源信息。

2.9.1. 数据备份

说明:请在此描述系统可能有的操作系统、应用系统和应用数据备份,

要说明备份等级、备份时间、备份介质、存放位置和保管人等信息。

2.9.2. 硬件配件

说明:请在此描述系统可能有的各种硬件配件,如大机、小机、服务器、网络设备、计算机备件和其它相关配件。对这些配件要注明具体型号、序列号、服务期限、保存位置和保管人等信息。

2.9.3. 软件备份

说明:请在此描述系统可能有的各种软件备份,如操作系统、数据库系统、应用软件备份等。对这些备份要注明具体产品名称、版本号、保存位置和保管人等信息。

2.10. 用户分配

说明:请在此描述系统可能有的各种用户,包括系统原有和自建的用户。要明确用户角色、用户组及其它相关信息。

2.11. 其他信息

说明:请在此描述其它与系统相关的需要描述的信息。

3. 标准处置预案

说明:请在此描述系统预设的一些标准处置预案,如主备机切换、应急库切换、灾备环境标准切换、硬件设备标准关闭、硬件设备标准重启等标准处置预案。

下面列举了常见的一些标准处置预案但不完善,请预案编制人员根据系统实际情况酌情修订。

在预案模板中,系统标准处置预案列举如下:

1) 主备机标准切换:该处置预案应包含系统各种设备在运行中出

现意外时,所涉及的各种应急切换处置步骤。设备包含大机、小机、服务器、网络设备、专用设备、存储等。

2) 应急库标准切换: 该处置预案应包含系统切换应急库的相关处

置步骤。

3) 灾备环境标准切换:该处置预案应包含系统切换灾备环境的相

关处置步骤。

4) 硬件设备标准关闭:该处置预案包含系统硬件设备关闭时的相

关处置步骤。

5) 硬件设备标准重启:该处置预案包含系统硬件设备重启时的相

关处置步骤。

6) 数据库标准关闭:该处置预案包含系统数据库关闭时的相关处

置步骤

7) 数据库标准重启:该处置预案包含系统数据库重启时的相关处

置步骤。

8) 应用服务标准关闭:该处置预案包含系统应用服务关闭时的相

关处置步骤。

9) 应用服务标准重启:该处置预案包含系统应用服务重启时的相

关处置步骤。

10) 中间件标准关闭:该处置预案包含系统中间件关闭时的相关处

置步骤。

11) 中间件标准重启:该处置预案包含系统中间件重启时的相关处

置步骤。

12) 其它通用软件标准关闭:该处置预案包含系统其它通用软件关

闭时的相关处置步骤。

13) 其它通用软件标准重启:该处置预案包含系统其它通用软件重

启时的相关处置步骤。

14) 硬件模块故障标准处置:该处置预案应包含系统设备出现硬件

模块故障,需要进行在线更换的相关处置步骤。涉及模块如电源、CPU、内存、RAID卡、光纤卡等。

15) 恢复回切标准处置:该处置预案应包含系统通过故障救治,排

除故障后恢复到原生产环境所涉及的各种回切处置。

3.1. 标准处置

说明:请在此对标准处置的主要用途做简要描述。

 修订日期:

说明:请在此描述该标准处置最近一次验证和修订的日期。

 处置时间:

说明:请在此描述完成操作需要的时间。

 操作步骤:

说明:请在此描述具体操作步骤,要求详细到具体的操作命令。

 验证步骤:

说明:请在此描述操作完后的验证步骤,也要求详细到具体的操作命令。 示例:

标准处置1:主备机切换

该标准处置主要起如下作用:生产环境邮件网关设备出现故障无法工作情况下,邮件网关备机通过该标准处置可紧急接管服务。

 修订日期: 2011年3月10日。  处置时间: 处置时间

1) 进入运维终端E:\日常备份\月报\邮件网关邮件服务器策略明

细表,找到当日备份及证书备份;

2) 将备机的IP地址修改为生产主机地址(11.xxx.xxx.31),重新

启动网络;具体操作命令为:vi /etc/sysconfig/network- scripts/ifcfg-eth0),将IP ADDRESS项中的地址修改为生产地址,存盘退出编辑。

3) 将邮件网关31主机的网线拔除并插到备机对应网卡中; 4) 在超级用户权限下执行应用启动命令:#/etc/init.d/smgd

restart。

5) 用administrator用户登录 https:// 11.xxx.xxx.31/admin管理

界面,进入系统设置---帮助—设置向导--,输入(验证)备份的证书序号和激活码。

6) 继续在系统设置---更新管理中,立即更新反病毒库和反垃圾邮

件库。

7) 登录 https:// 11.xxx.xxx.31:10000端口管理界面,在系统 备

份管理导入终端中的备份文件,恢复系统配置及策略设置为

31主机状态;  验证步骤:

1) 登录 https:// 11.xxx.xxx.31/admin 查看系统设置、系统面板,

分别检查设置是否已经恢复成功,对外连接的服务器状态是否正常;

2) 继续在https:// 11.xxx.xxx.31/admin,统计与日志中,分别查

看邮件日志、投递邮件、系统状态、过滤统计等,测试收发邮件是否正常工作,过滤是否正常;

3) 登录https:// 11.xxx.xxx.31:10000管理界面,在系统历史统计

数据中,分别查看CPU、磁盘、内存、eth0网络接口卡等硬件运行情况;

如以上三部分检查都正常,则说明系统主备机切换成功。

4. 故障快速定位

4.1. 快速定位流程

说明:请在此描述当系统出现未知故障情况下,应急人员因按照何种预设流程进行故障排查,以便能快速定位系统故障。为规范和方便大家填写故障快速定位流程,在预案模版中预设一个空白的应急预案的维护流程,预案修订人员需要根据系统特点修改完善。

4.2. 定位流程描述

说明:请根据上节的定位流程图,翔实描述各具体定位流程步骤。) 1、

2、

4.3. 故障快速定位排查内容

说明:请在此详细描述在系统故障排查时,可能涉及的检查的内容、执行的命令、指标阀值等。在预案模板中预设了快速定位排查表,主要涉及应用应用软件、网络状态、硬件状态、通用软件等检查内容。 预案修订人员要求认真考虑排查的优先顺序,按照最快故障排查定位的原则对优先顺序进行排序。每步排查步骤都要求有检查内容、操作步骤、操作/复核人、检查结果等具体信息。并要求根据排查结果指定下一步检查内容。如故障定位检查需要相关系统配合,也请按照排查顺序,将相关检查内容添加到排查表中。

如检查内容较多,可在排查表中简要描述检查项,详细内容放在预案附录中。

5. 系统应急场景分类及描述

5.1. 故障场景分类

说明:请预案修订人员根据系统特点,在此对故障场景进行分类并简要描述,要求故障场景分类应能覆盖系统所有可能出现的故障场景。

示例:

系统故障场景按照故障特点分为五类:硬件故障场景、通用软件故障场景、应用软件故障场景、网络故障场景和其它故障场景。

1.硬件故障场景:主要包含系统硬件方面的故障场景。例如。。。

2.通用软件故障场景:主要操作系统、数据库软件、中间件等方面的故障场景。例如。。。

3.应用软件故障场景:主要包含业务应用系统方面的故障。例如。。。

4.网络故障场景:主要包含与网络相关的故障场景。例如。。。

5.其它故障场景:主要包含系统相关的外联系统、外部环境等方面的故障。例如。。。

5.2. 硬件故障场景

说明:请在此详细列举并描述系统可能出现的各种硬件场景,在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。(预案编制人员在修订应急步骤时,建议参考

平台部编制的通用故障处理方案,该方案内包含LINUX、AIX、HP-UX、INFORMIX、ORACLE通过故障处理流程和应急处理步骤。) 在预案模板中,系统硬件常见故障事件列举如下:

1) 大型机异常报错

2) 小型机异常报错

3) 加密机设备异常

4) 服务器异常宕机

5) 设备网卡异常

6) 设备CPU异常

7) 设备硬盘异常

8) 设备内存异常

9) 设备光纤卡异常

10) 设备RAID卡异常

11) 设备HA卡异常

12) 设备串口卡异常

13) 设备其它部件异常

5.2.1. XX故障事件

说明:请在XX处补全具体故障事件名称。

 修订日期:

说明:请在此描述该故障事件处置最近一次验证和修订的日期。  事件级别:

说明:请在此设定该故障事件等级(一级/二级/三级/四级/五级/六级)。划分原则请按照《中国建设银行信息系统生产事件等级认定规定(试行)》(建总发〔2010〕138号)对事件级别的划分。

 授权级别:

说明:请在此设定执行该故障救治步骤所需要的授权级别中心领导授权/部室负责人授权/部室日常授权)。授权级别的设定可参照中心总体预案中的授权级别设定原则。

 处置时间:

说明:请在此在设定执行救治措施,完成故障处置该所需要的时间。  场景描述:

说明:请在此简要描述该故障场景可能出现的状况和现象。  验证方法:

说明:请在此简要描述可确认该故障事件验证方法和手段。  现场保护:

说明:请在此描述进行现场保护所使用的现场收集脚本。部分脚本可见附录。

 救治步骤:

说明:请在此此翔实描述故障救治步骤,要求细化到具体的操作指令。如救治步骤调用前面标准处置章节的内容,则必须在此注明调用的具体章节号及名称。

示例:

邮件网关集群中一台设备硬件宕机

 修订日期:

最近一次验证和修订的日期为2011年3月11日

 事件级别:

五级事件

 授权级别:

部室负责人授权

 处理时间:

26分钟

 场景描述:

1. 应用监控人员通过邮件、短信、实时监控等渠道得知主机不可用。

2. 应用用户可以ping通主机IP地址,但不能从控制台登入操作系统,且未发现硬件故障灯亮。

 验证方法:(3分钟)

1. 进入主机房检查主机上是否有硬件报错或是否有黄灯闪,如果没有则说明不是因为硬件的损坏导致的主机不可用。

 现场保护:(3分钟)

1) 如果系统无法响应且屏幕有信息,用手机将提示信息拍下,或者

用笔将文字记录下来;

2) 系统重启后,执行errspot.sh脚本将系统相关的信息和日志收集

起来,以备分析故障时使用。

 救治步骤:(20分钟)

1) 将备机的IP地址修改为生产主机地址(11.xxx.xxx.31),重新启动

网络;具体操作命令为:vi /etc/sysconfig/network-scripts/ifcfg-eth0),将IP ADDRESS项中的地址修改为生产地址,存盘退出编辑。

2) 将邮件网关31主机的网线拔除并插到备机对应网卡中;

3) 在超级用户权限下执行应用启动命令:#/etc/init.d/smgd restart。

4) 用administrator用户登录 https:// 11.xxx.xxx.31/admin管理界

面,进入系统设置---帮助—设置向导--,输入(验证)备份的证书序号和激活码。

5) 继续在系统设置---更新管理中,立即更新反病毒库和反垃圾邮件

库。

6) 登录 https:// 11.xxx.xxx.31:10000端口管理界面,在系统 备份管

理导入终端中的备份文件,恢复系统配置及策略设置为31主机状态;

5.3. 通用软件故障场景

说明:请在此详细列举并描述系统所有可能出现的操作系统、数据库、

中间件等通用软件故障场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。(预案编制人员在修订应急步骤时,建议参考平台部编制的通用故障处理方案,该方案内包含LINUX、AIX、HP-UX、INFORMIX、ORACLE通过故障处理流程和应急处理步骤。)

在预案模板中,系统通用软件常见故障事件列举如下:

1) 系统数据库崩溃

2) 数据库存储损坏

3) 数据库无法正常处理请求

4) 数据库表死锁

5) 数据库表数据无法插入

6) 逻辑日志满导致数据库挂起

7) 数据库启动失败

8) 数据库交易处理缓慢

9) 数据库表空间OffLine

10) 数据库无法连接或无响应

11) 数据库性能极剧下降

12) 数据库短时间内不可用

13) 数据库实例监听宕掉

14) 数据库实例出现大量等待事件

15) 数据库实例无法切换逻辑日志

16) Tuxedo服务异常或僵死

17) weblogic实例异常或僵死

18) AIX操作系统异常或报错

19) LINUX操作系统异常或报错

20) HP-UX操作系统异常或报错

21) WINDOW操作系统异常或报错

22) 中间件异常或报错

5.4. 应用软件故障场景

说明:请在此详细列举并描述系统所有可能出现的应用故障场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。

在预案模板中,系统应用软件常见故障事件列举如下:

1) 系统应用不能正常运行

2) 应用进程异常

3) 系统应用无法启动

4) 系统应用响应缓慢或无响应

5) XX交易异常报错

6) XX交易流量异常下降

7) XX交易成功率异常下降

8) 用户无法登陆应用界面

9) 用户连接应用异常报错

10) 应用服务队列堵塞

11) 应用出现大量繁忙,交易时间延长

12) 应用共享空间异常

13) 应用处理性能下降

14) 部分分行应用堵塞,无法连接总行

15) 某类特定交易成功率异常

16) 某类特定交易流量异常下降

5.5. 网路故障场景

说明:请在此详细列举并描述系统所有可能出现的网络故障场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。

在预案模板中,系统网络常见故障事件列举如下:

1) 外联节点网络异常中断

2) 网络外联服务不可用

3) AP与DB间网络异常或不可用

4) WEB与AP间网络异常或不可用

5) 网络端口流量异常升高/下降

6) 防火墙连接数异常

7) IP地址异常或出现冲突

8) 数据传输中出现异常丢包

9) 病毒爆发,堵塞网络

10) 网络被攻击,不可用

11) F5服务异常或报错

5.6. 其它故障场景

说明:请在此详细列举并描述系统所有可能出现的外部环境、外联、外部系统等故障场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。

在预案模板中,系统其它常见故障事件列举如下:

1) 机柜异常掉电

2) 外联系统交易异常

3) 外联系统不可用

4) 设备被人为破坏

5.7. 恢复回切场景

说明:请在此详细列举并描述系统所有可能出现的恢复回切场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。

在预案模板中,系统恢复回切场景列举如下:

1) 应用回切

2) 数据库回切

3) 灾备库回切

6. 附录

附录一:人员联系表

说明:请在此详细描述与本系统应急相关的所有人员。在人员联系表中应至少含有中心领导层、业务部门、系统处室、网络、机房、

平台、合作公司、外部机构和外部服务商等应急处置所需的人员。 要求在预案模板设置的表中能明确应急处置人员的技术水平和能力,以及B角人员的技术水平是否胜任。

在预案模板的人员联系表中,每个人员信息预设如下字段: 1) 姓名 2) 所属单位 3) 职务 4) 联系邮箱 5) 固定电话 6) 移动电话 7) 专业技能 8) 应急职责

说明:请在此注明人员在应急中的职责。如指挥A角、指挥B角、操作员A角、操作员B角、审核员A角、审核员B角、外联人员A角、外联人员B角、公司技术人员A角、公司技术人员B角等。 9) 联系表修订日期

附录二:应急演练方案

说明:附录二的应急演练方案是数据中心通用演练方案模板,在组织系统应急演练时,演练人员可以参考使用。

附录三:应急演练报告

说明:附录三的应急演练报告是数据中心通用演练报告模板,在组织系统应急演练时,演练人员可以参考使用。

附录四:故障应急报告

说明:附录四的故障应急报告是数据中心通用报告模板,在进行系统应急时,应急人员可以参考使用。

附录五:故障现场收集脚本 说明:脚本编号编制规则如下:

1. GXXX--通用脚本(general),为数据中心系统平台部整理的通用故障收集脚本,在故障情况下可有系统应急人员直接使用; 2. SXXX--特殊脚本(special),为数据中心系统平台部整理的特殊故障收集脚本,针对不同的场景和具体问题进行执行的脚本(脚本执行可能会对系统有一定风险,建议由专业技术人员执行) 3. CXXX—自定义脚本(custom),数据中心预案修订人员可针对不同

的场景和具体问题,自行开发的用于特定系统和应用信息收集的脚本。

系统应急响应及恢复预案编写指南

2011年7月1日

目 录

修订说明: ................................................................................................................ 4 修订记录 .................................................................................................................... 6 1.

总则 .................................................................................................................. 7

1.1. 1.2. 2.

目的和依据 ............................................................................................... 7 适用范围 ................................................................................................... 7

系统及资源 ...................................................................................................... 9

2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. 2.10. 2.11. 3.

系统信息 ................................................................................................... 9 系统描述 ................................................................................................. 10 运行指标 ................................................................................................. 10 关联系统 ................................................................................................. 12 物理架构 ................................................................................................. 12 网络拓朴 ................................................................................................. 12 IP及端口 ................................................................................................ 12 系统软硬件 ............................................................................................. 12 后备资源 ................................................................................................. 14 用户分配 ............................................................................................. 15 其他信息 ............................................................................................. 15

标准处置预案 ................................................................................................ 16

3.1. 4.

标准处置 ................................................................................................. 18

故障快速定位 ................................................................................................ 21

4.1. 快速定位流程 ......................................................................................... 21

4.2. 4.3. 5.

定位流程描述 ......................................................................................... 21 故障快速定位排查内容 ......................................................................... 21

系统应急场景分类及描述 ............................................................................ 22

5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 6.

故障场景分类 ......................................................................................... 22 硬件故障场景 ......................................................................................... 22 通用软件故障场景 ................................................................................. 26 应用软件故障场景 ................................................................................. 28 网路故障场景 ......................................................................................... 29 其它故障场景 ......................................................................................... 30 恢复回切场景 ......................................................................................... 30

附录 ................................................................................................................ 31

附录一:人员联系表 .............................................................................................. 31 附录二:应急演练方案 .......................................................................................... 32 附录三:应急演练报告 .......................................................................................... 32 附录四:故障应急报告 .......................................................................................... 32 附录五:故障现场收集脚本 .................................................................................. 32

修订说明:

北京数据中心于2011年3月推出《北京数据中心总体应急预案V1.0》(简称总体预案)和《中国建设银行XX系统应急响应及恢复预案(模版V3.0)》(简称新预案模板)。

总体预案主要适用于北京数据中心信息系统突发事件的处理,并指导各信息系统编制系统应急预案。在总体预案中,对事件分级及处置原则、中心应急组织架构及职责、应急响应及恢复流程、应急预案管理等内容进行了描述。

新预案模板主要用于指导数据中心各系统应急新版预案的修订工作。新预案模板在V2.0版本基础上,对架构和内容进行了全面的修订,重点加强了系统应急管理、故障快速定位和故障场景等内容的描述。可确保特定系统发生突发事件时,应急人员能依据预案预设内容,规范处置和快速恢复应用。系统预案中相关的事件分级、处置和应急流程等在总体预案中都有详细描述。在修订过程中,编制人员可参照总体预案进行新版预案的修订。

新预案模板由六章组成,分别是总则、系统及资源、标准处置预案、故障快速定位、系统应急场景分类及描述和附录。新预案模板与V2.0版预案在文档结构对照关系可参见下表:

新预案模板保持了应急预案版本建设的连贯性,减少了预案版本升级所可能产生的困难和产生的工作量,便于预案修订人员参考使用。本编写指南在主体结构与预案模板也基本保持一致,希望能帮助预案修订人员顺利完成新版应急预案修订工作。

修订记录

说明:每次系统升级及变更配置后,都必须对应急预案做相应的修订,确保这些变化造成的影响能够在应急预案模版中反映出来并使之符合系统现有状况。预案维护人员严格执行版本控制,在预案内容更新后时应该确保相关人员都能及时得到最新版本。 示例:

1. 总则

1.1. 目的和依据

说明:请在此简要描述本预案编制的主要目的,本预案在建设银行业务持续性突发事件应急响应及恢复工作(以下简称“应急响应及恢复工作”)过程中所发挥的作用和执行的功能,以及编制本预案的主要依据。

示例:

防垃圾邮件网关系统(MGAT)应急预案(以下简称MGAT预案)是邮件网关系统遇到紧急情况或运行中断后为恢复邮件网关服务所采取的快速有效的应对手段。通过建立包含应急启动、执行、恢复等流程、步骤和技术操作方案,为系统相关组织、人员处理应急情况提供指导;并作为与总行其他应急相关人员进行协调的依据。

1.2. 适用范围

说明:请在此明确本应急预案的具体适用范围。如指明该预案适用于因XXX突发事件所导致的建设银行XXX业务发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。

示例:

本系统应急预案适用范围是北京数据中心与本系统有关的所有组织体系和人员,适用于北京数据中心邮件网关系统的运行所需的功能,操作和资源。该预案适用于因邮件网关系统突发事件所导致的建设银行邮件收发发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。邮件网关系统简称为MGAT,产品英文名称为Websense 邮件网关。

2. 系统及资源

2.1. 系统信息 应用系统中文全称:

说明:请在此描述应用系统在北京数据中心(或ITSM系统中)的中文全称。

应用系统英文缩写:

说明:请在此描述应用系统在北京数据中心(或ITSM系统中)的英文简称。

应用系统负责部室:

说明:请在此描述应用系统在数据中心(或ITSM系统中)的负责部室。

应用系统管理员:

说明:请在此描述应用系统在数据中心(或ITSM系统中)的应用预案修订人员A/B角或者管理团队。

平台系统管理员:

说明:请在此描述应用系统在数据中心(或ITSM系统中)的平台预案修订人员A/B角或者管理团队。

网络管理员:

说明:请在此描述应用系统在数据中心(或ITSM系统中)的网络管理员A/B角或者管理团队。

2.2. 系统描述 系统功能:

说明:请在此描述应用系统的主要功能。

支撑业务:

说明:请在此描述应用系统所支撑的所有业务应用。

业务影响范围:

说明:请在此描述应用系统故障后可能影响的范围。 2.3. 运行指标

说明:请在此补充应用系统的常用的一些运行指标,如恢复时间目标(RTO,Recovery Time Objective) 恢复点目标(RPO,Recovery Point Objective)、运行维护级别、可用性要求,性能要求,业务连续性要求,安全性要求,可管理性要求,可维护性要求等。 运行指标解释:

1)恢复时间目标(RTO):是指突发事件发生并导致业务或系统中断后,从中断到必须恢复的时间要求。

2)恢复点目标(RPO):是指突发事件发生并导致业务或系统中断后,数据必须恢复到的时间点要求,即数据可容忍丢失的最大时间长度。

注意:恢复时间目标(RTO)和恢复点目标(RPO)是必填项。在营业不同时间段(业务高峰、业务空闲和非业务时间)如对RTO/RPO有不同要求,请单独列举。 示例:

邮件网关系统运行指标

恢复时间目标(RTO):0分钟。 恢复点目标(RPO):10分钟。 运行维护级别:5*8(8:30 - 17:30)。 可用性要求:全年系统可用性达到99.9%。

性能要求:系统最大并发连接数 8000 个 TCP连接,邮件处理速度 >150 封/秒,邮件延迟时间平均值

业务连续性要求:7*24连续运行。

安全性要求:防攻击性能参数 >170,000 次/小时 包括字典攻击、目录攻击、病毒攻击、压缩文件攻击等。

2.4. 关联系统

说明:请在此描述与该系统运行相关的其它关联系统情况,如:何种关联系统?所涉及何种业务等。 2.5. 物理架构

说明:请在此描述系统物理拓朴结构及简要描述(包括放置在哪个机房,物理如何连接、以及何其他系统的关联拓扑等)

2.6. 网络拓朴

说明:请在此描述系统网络拓朴结构及简要描述

2.7. IP及端口

说明:请在此描述简要描述系统使用的IP地址及端口(请填写包括带外管理在内的所有网络地址和端口)

2.8. 系统软硬件 2.8.1. 主机设备

说明:请在此描述主机设备的具体配置及参数。

示例:

2.8.2. 软件配置

说明:请在此描述系统安装的各种软件的具体信息及用途,请将系统所用软件按系统软件、中间件、数据库、应用等进行划分。 示例:

2.8.3. 磁盘/磁盘阵列

说明:请在此描述系统所用的磁盘及磁盘阵列。

2.8.4. 磁带存储

说明:请在此描述系统所用的磁带存储。

2.8.5. 网络设备(如路由器、交换机、负载均衡等) 说明:请在此描述系统专用的各种网络设备

2.8.6. 其它硬件设备(如加密机等)

说明:请在此描述系统专用的各种硬件设备。

2.9. 后备资源

说明:请在此描述系统各种后备资源,如系统的数据备份、硬件配件、软件备份等资源信息。

2.9.1. 数据备份

说明:请在此描述系统可能有的操作系统、应用系统和应用数据备份,

要说明备份等级、备份时间、备份介质、存放位置和保管人等信息。

2.9.2. 硬件配件

说明:请在此描述系统可能有的各种硬件配件,如大机、小机、服务器、网络设备、计算机备件和其它相关配件。对这些配件要注明具体型号、序列号、服务期限、保存位置和保管人等信息。

2.9.3. 软件备份

说明:请在此描述系统可能有的各种软件备份,如操作系统、数据库系统、应用软件备份等。对这些备份要注明具体产品名称、版本号、保存位置和保管人等信息。

2.10. 用户分配

说明:请在此描述系统可能有的各种用户,包括系统原有和自建的用户。要明确用户角色、用户组及其它相关信息。

2.11. 其他信息

说明:请在此描述其它与系统相关的需要描述的信息。

3. 标准处置预案

说明:请在此描述系统预设的一些标准处置预案,如主备机切换、应急库切换、灾备环境标准切换、硬件设备标准关闭、硬件设备标准重启等标准处置预案。

下面列举了常见的一些标准处置预案但不完善,请预案编制人员根据系统实际情况酌情修订。

在预案模板中,系统标准处置预案列举如下:

1) 主备机标准切换:该处置预案应包含系统各种设备在运行中出

现意外时,所涉及的各种应急切换处置步骤。设备包含大机、小机、服务器、网络设备、专用设备、存储等。

2) 应急库标准切换: 该处置预案应包含系统切换应急库的相关处

置步骤。

3) 灾备环境标准切换:该处置预案应包含系统切换灾备环境的相

关处置步骤。

4) 硬件设备标准关闭:该处置预案包含系统硬件设备关闭时的相

关处置步骤。

5) 硬件设备标准重启:该处置预案包含系统硬件设备重启时的相

关处置步骤。

6) 数据库标准关闭:该处置预案包含系统数据库关闭时的相关处

置步骤

7) 数据库标准重启:该处置预案包含系统数据库重启时的相关处

置步骤。

8) 应用服务标准关闭:该处置预案包含系统应用服务关闭时的相

关处置步骤。

9) 应用服务标准重启:该处置预案包含系统应用服务重启时的相

关处置步骤。

10) 中间件标准关闭:该处置预案包含系统中间件关闭时的相关处

置步骤。

11) 中间件标准重启:该处置预案包含系统中间件重启时的相关处

置步骤。

12) 其它通用软件标准关闭:该处置预案包含系统其它通用软件关

闭时的相关处置步骤。

13) 其它通用软件标准重启:该处置预案包含系统其它通用软件重

启时的相关处置步骤。

14) 硬件模块故障标准处置:该处置预案应包含系统设备出现硬件

模块故障,需要进行在线更换的相关处置步骤。涉及模块如电源、CPU、内存、RAID卡、光纤卡等。

15) 恢复回切标准处置:该处置预案应包含系统通过故障救治,排

除故障后恢复到原生产环境所涉及的各种回切处置。

3.1. 标准处置

说明:请在此对标准处置的主要用途做简要描述。

 修订日期:

说明:请在此描述该标准处置最近一次验证和修订的日期。

 处置时间:

说明:请在此描述完成操作需要的时间。

 操作步骤:

说明:请在此描述具体操作步骤,要求详细到具体的操作命令。

 验证步骤:

说明:请在此描述操作完后的验证步骤,也要求详细到具体的操作命令。 示例:

标准处置1:主备机切换

该标准处置主要起如下作用:生产环境邮件网关设备出现故障无法工作情况下,邮件网关备机通过该标准处置可紧急接管服务。

 修订日期: 2011年3月10日。  处置时间: 处置时间

1) 进入运维终端E:\日常备份\月报\邮件网关邮件服务器策略明

细表,找到当日备份及证书备份;

2) 将备机的IP地址修改为生产主机地址(11.xxx.xxx.31),重新

启动网络;具体操作命令为:vi /etc/sysconfig/network- scripts/ifcfg-eth0),将IP ADDRESS项中的地址修改为生产地址,存盘退出编辑。

3) 将邮件网关31主机的网线拔除并插到备机对应网卡中; 4) 在超级用户权限下执行应用启动命令:#/etc/init.d/smgd

restart。

5) 用administrator用户登录 https:// 11.xxx.xxx.31/admin管理

界面,进入系统设置---帮助—设置向导--,输入(验证)备份的证书序号和激活码。

6) 继续在系统设置---更新管理中,立即更新反病毒库和反垃圾邮

件库。

7) 登录 https:// 11.xxx.xxx.31:10000端口管理界面,在系统 备

份管理导入终端中的备份文件,恢复系统配置及策略设置为

31主机状态;  验证步骤:

1) 登录 https:// 11.xxx.xxx.31/admin 查看系统设置、系统面板,

分别检查设置是否已经恢复成功,对外连接的服务器状态是否正常;

2) 继续在https:// 11.xxx.xxx.31/admin,统计与日志中,分别查

看邮件日志、投递邮件、系统状态、过滤统计等,测试收发邮件是否正常工作,过滤是否正常;

3) 登录https:// 11.xxx.xxx.31:10000管理界面,在系统历史统计

数据中,分别查看CPU、磁盘、内存、eth0网络接口卡等硬件运行情况;

如以上三部分检查都正常,则说明系统主备机切换成功。

4. 故障快速定位

4.1. 快速定位流程

说明:请在此描述当系统出现未知故障情况下,应急人员因按照何种预设流程进行故障排查,以便能快速定位系统故障。为规范和方便大家填写故障快速定位流程,在预案模版中预设一个空白的应急预案的维护流程,预案修订人员需要根据系统特点修改完善。

4.2. 定位流程描述

说明:请根据上节的定位流程图,翔实描述各具体定位流程步骤。) 1、

2、

4.3. 故障快速定位排查内容

说明:请在此详细描述在系统故障排查时,可能涉及的检查的内容、执行的命令、指标阀值等。在预案模板中预设了快速定位排查表,主要涉及应用应用软件、网络状态、硬件状态、通用软件等检查内容。 预案修订人员要求认真考虑排查的优先顺序,按照最快故障排查定位的原则对优先顺序进行排序。每步排查步骤都要求有检查内容、操作步骤、操作/复核人、检查结果等具体信息。并要求根据排查结果指定下一步检查内容。如故障定位检查需要相关系统配合,也请按照排查顺序,将相关检查内容添加到排查表中。

如检查内容较多,可在排查表中简要描述检查项,详细内容放在预案附录中。

5. 系统应急场景分类及描述

5.1. 故障场景分类

说明:请预案修订人员根据系统特点,在此对故障场景进行分类并简要描述,要求故障场景分类应能覆盖系统所有可能出现的故障场景。

示例:

系统故障场景按照故障特点分为五类:硬件故障场景、通用软件故障场景、应用软件故障场景、网络故障场景和其它故障场景。

1.硬件故障场景:主要包含系统硬件方面的故障场景。例如。。。

2.通用软件故障场景:主要操作系统、数据库软件、中间件等方面的故障场景。例如。。。

3.应用软件故障场景:主要包含业务应用系统方面的故障。例如。。。

4.网络故障场景:主要包含与网络相关的故障场景。例如。。。

5.其它故障场景:主要包含系统相关的外联系统、外部环境等方面的故障。例如。。。

5.2. 硬件故障场景

说明:请在此详细列举并描述系统可能出现的各种硬件场景,在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。(预案编制人员在修订应急步骤时,建议参考

平台部编制的通用故障处理方案,该方案内包含LINUX、AIX、HP-UX、INFORMIX、ORACLE通过故障处理流程和应急处理步骤。) 在预案模板中,系统硬件常见故障事件列举如下:

1) 大型机异常报错

2) 小型机异常报错

3) 加密机设备异常

4) 服务器异常宕机

5) 设备网卡异常

6) 设备CPU异常

7) 设备硬盘异常

8) 设备内存异常

9) 设备光纤卡异常

10) 设备RAID卡异常

11) 设备HA卡异常

12) 设备串口卡异常

13) 设备其它部件异常

5.2.1. XX故障事件

说明:请在XX处补全具体故障事件名称。

 修订日期:

说明:请在此描述该故障事件处置最近一次验证和修订的日期。  事件级别:

说明:请在此设定该故障事件等级(一级/二级/三级/四级/五级/六级)。划分原则请按照《中国建设银行信息系统生产事件等级认定规定(试行)》(建总发〔2010〕138号)对事件级别的划分。

 授权级别:

说明:请在此设定执行该故障救治步骤所需要的授权级别中心领导授权/部室负责人授权/部室日常授权)。授权级别的设定可参照中心总体预案中的授权级别设定原则。

 处置时间:

说明:请在此在设定执行救治措施,完成故障处置该所需要的时间。  场景描述:

说明:请在此简要描述该故障场景可能出现的状况和现象。  验证方法:

说明:请在此简要描述可确认该故障事件验证方法和手段。  现场保护:

说明:请在此描述进行现场保护所使用的现场收集脚本。部分脚本可见附录。

 救治步骤:

说明:请在此此翔实描述故障救治步骤,要求细化到具体的操作指令。如救治步骤调用前面标准处置章节的内容,则必须在此注明调用的具体章节号及名称。

示例:

邮件网关集群中一台设备硬件宕机

 修订日期:

最近一次验证和修订的日期为2011年3月11日

 事件级别:

五级事件

 授权级别:

部室负责人授权

 处理时间:

26分钟

 场景描述:

1. 应用监控人员通过邮件、短信、实时监控等渠道得知主机不可用。

2. 应用用户可以ping通主机IP地址,但不能从控制台登入操作系统,且未发现硬件故障灯亮。

 验证方法:(3分钟)

1. 进入主机房检查主机上是否有硬件报错或是否有黄灯闪,如果没有则说明不是因为硬件的损坏导致的主机不可用。

 现场保护:(3分钟)

1) 如果系统无法响应且屏幕有信息,用手机将提示信息拍下,或者

用笔将文字记录下来;

2) 系统重启后,执行errspot.sh脚本将系统相关的信息和日志收集

起来,以备分析故障时使用。

 救治步骤:(20分钟)

1) 将备机的IP地址修改为生产主机地址(11.xxx.xxx.31),重新启动

网络;具体操作命令为:vi /etc/sysconfig/network-scripts/ifcfg-eth0),将IP ADDRESS项中的地址修改为生产地址,存盘退出编辑。

2) 将邮件网关31主机的网线拔除并插到备机对应网卡中;

3) 在超级用户权限下执行应用启动命令:#/etc/init.d/smgd restart。

4) 用administrator用户登录 https:// 11.xxx.xxx.31/admin管理界

面,进入系统设置---帮助—设置向导--,输入(验证)备份的证书序号和激活码。

5) 继续在系统设置---更新管理中,立即更新反病毒库和反垃圾邮件

库。

6) 登录 https:// 11.xxx.xxx.31:10000端口管理界面,在系统 备份管

理导入终端中的备份文件,恢复系统配置及策略设置为31主机状态;

5.3. 通用软件故障场景

说明:请在此详细列举并描述系统所有可能出现的操作系统、数据库、

中间件等通用软件故障场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。(预案编制人员在修订应急步骤时,建议参考平台部编制的通用故障处理方案,该方案内包含LINUX、AIX、HP-UX、INFORMIX、ORACLE通过故障处理流程和应急处理步骤。)

在预案模板中,系统通用软件常见故障事件列举如下:

1) 系统数据库崩溃

2) 数据库存储损坏

3) 数据库无法正常处理请求

4) 数据库表死锁

5) 数据库表数据无法插入

6) 逻辑日志满导致数据库挂起

7) 数据库启动失败

8) 数据库交易处理缓慢

9) 数据库表空间OffLine

10) 数据库无法连接或无响应

11) 数据库性能极剧下降

12) 数据库短时间内不可用

13) 数据库实例监听宕掉

14) 数据库实例出现大量等待事件

15) 数据库实例无法切换逻辑日志

16) Tuxedo服务异常或僵死

17) weblogic实例异常或僵死

18) AIX操作系统异常或报错

19) LINUX操作系统异常或报错

20) HP-UX操作系统异常或报错

21) WINDOW操作系统异常或报错

22) 中间件异常或报错

5.4. 应用软件故障场景

说明:请在此详细列举并描述系统所有可能出现的应用故障场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。

在预案模板中,系统应用软件常见故障事件列举如下:

1) 系统应用不能正常运行

2) 应用进程异常

3) 系统应用无法启动

4) 系统应用响应缓慢或无响应

5) XX交易异常报错

6) XX交易流量异常下降

7) XX交易成功率异常下降

8) 用户无法登陆应用界面

9) 用户连接应用异常报错

10) 应用服务队列堵塞

11) 应用出现大量繁忙,交易时间延长

12) 应用共享空间异常

13) 应用处理性能下降

14) 部分分行应用堵塞,无法连接总行

15) 某类特定交易成功率异常

16) 某类特定交易流量异常下降

5.5. 网路故障场景

说明:请在此详细列举并描述系统所有可能出现的网络故障场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。

在预案模板中,系统网络常见故障事件列举如下:

1) 外联节点网络异常中断

2) 网络外联服务不可用

3) AP与DB间网络异常或不可用

4) WEB与AP间网络异常或不可用

5) 网络端口流量异常升高/下降

6) 防火墙连接数异常

7) IP地址异常或出现冲突

8) 数据传输中出现异常丢包

9) 病毒爆发,堵塞网络

10) 网络被攻击,不可用

11) F5服务异常或报错

5.6. 其它故障场景

说明:请在此详细列举并描述系统所有可能出现的外部环境、外联、外部系统等故障场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。

在预案模板中,系统其它常见故障事件列举如下:

1) 机柜异常掉电

2) 外联系统交易异常

3) 外联系统不可用

4) 设备被人为破坏

5.7. 恢复回切场景

说明:请在此详细列举并描述系统所有可能出现的恢复回切场景。在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。

在预案模板中,系统恢复回切场景列举如下:

1) 应用回切

2) 数据库回切

3) 灾备库回切

6. 附录

附录一:人员联系表

说明:请在此详细描述与本系统应急相关的所有人员。在人员联系表中应至少含有中心领导层、业务部门、系统处室、网络、机房、

平台、合作公司、外部机构和外部服务商等应急处置所需的人员。 要求在预案模板设置的表中能明确应急处置人员的技术水平和能力,以及B角人员的技术水平是否胜任。

在预案模板的人员联系表中,每个人员信息预设如下字段: 1) 姓名 2) 所属单位 3) 职务 4) 联系邮箱 5) 固定电话 6) 移动电话 7) 专业技能 8) 应急职责

说明:请在此注明人员在应急中的职责。如指挥A角、指挥B角、操作员A角、操作员B角、审核员A角、审核员B角、外联人员A角、外联人员B角、公司技术人员A角、公司技术人员B角等。 9) 联系表修订日期

附录二:应急演练方案

说明:附录二的应急演练方案是数据中心通用演练方案模板,在组织系统应急演练时,演练人员可以参考使用。

附录三:应急演练报告

说明:附录三的应急演练报告是数据中心通用演练报告模板,在组织系统应急演练时,演练人员可以参考使用。

附录四:故障应急报告

说明:附录四的故障应急报告是数据中心通用报告模板,在进行系统应急时,应急人员可以参考使用。

附录五:故障现场收集脚本 说明:脚本编号编制规则如下:

1. GXXX--通用脚本(general),为数据中心系统平台部整理的通用故障收集脚本,在故障情况下可有系统应急人员直接使用; 2. SXXX--特殊脚本(special),为数据中心系统平台部整理的特殊故障收集脚本,针对不同的场景和具体问题进行执行的脚本(脚本执行可能会对系统有一定风险,建议由专业技术人员执行) 3. CXXX—自定义脚本(custom),数据中心预案修订人员可针对不同

的场景和具体问题,自行开发的用于特定系统和应用信息收集的脚本。


相关文章

  • [综合能力]备考重点:应急预案演练
  • 应急预案演练 一.应急预案演练目的 应急预案演练的目的包括以下五个方面: (1)检验预案.通过开展应急预案演练,查找应急预案中存在的问题,进而完善应急预案,提高应急预案的实用性和可操作性. (2)完善准备.通过开展应急预案演练,检查对突发火 ...查看


  • 应急预案演练大纲
  • 目 录 目 录................................................................................................................. ...查看


  • 应急演练实施方案
  • 应急演练实施方案 1.5 应急演练规划 演练组织单位要根据实际情况,并依据相关法律法规和应急预案的规定,制订年度应急演练规划,按照"先单项后综合.先桌面后实战.循序渐进.时空有序"等原则,合理规划应急演练的频次.规模.形 ...查看


  • 春雷煤矿安全应急演练实施方案
  • 正安县格林镇春雷煤矿 应急演练实施方案 编 制:盛 廷 余 生产矿长:陈 培 安全矿长:熊 太 平 机电矿长:冉 合 奇 总工程师:盛 廷 余 常务矿长:黄 见 矿 长:何 德 金 编制日期:2013年1月1日 会审意见 1 应急演练规划 ...查看


  • 应急预案评审修订制度
  • 应急预案评审修订制度 1.目的 及时发现应急预案存在的问题,完善应急预案体系:提高应急预案的针对性.实用性和科操作性:实现生产单位应急预案与相关单位应急预案衔接:增强事故防范和应急处置能力:确保预案的充分性和应急设备的保障能力及应急人员的操 ...查看


  • 应急管理培训
  • 安全生产应急管理培训安全生产应急管理培训 主要通过培训来帮助大家学习应急的方式,提高安全意识以及应急管理能力. 安全生产应急管理培训大纲: 应急管理概论 主要包括突发事件分类分级.应急管理的基本概念.安全生产应急管理的内涵.基本任务和重要意 ...查看


  • 应急预案的演练
  • 应急预案的演练 应急演练是应急管理的重要环节,在应急管理工作中有着十分重要的作用.通过开展应急演练,可以实现评估应急准备状态,发现并及时修改应急预案.执行程序等相关工作的缺陷和不足:评估突发公共事件应急能力,识别资源需求,澄清相关机构.组织 ...查看


  • 安全评价师职业培训自学要求
  • 一.根据<安全评价师国家职业标准(试行)>中对于安全评价师的基本要求和三个等级的工作要求确定安全评价师职业培训自学内容,自学学时数分别为:三级110学时:二级80学时:一级50学时. 二.报名参加安全评价师职业培训的人员应在培训 ...查看


  • 2014年度xx公司应急预案演练计划
  • xxxx公司 2014年度应急演练活动计划 为认真贯彻落实上级关于加强安全生产工作的一系列指示精神,按照上级要求,结合我公司实际,推动应急演练活动深入开展,加大安全生产应急管理工作宣传力度,特编制2014年度应急演练活动计划. 一.指导思想 ...查看


热门内容