信用卡系统应急预案 联系客服

发布时间 : 星期一 文章信用卡系统应急预案更新完毕开始阅读

(3)交易恢复;

(4)切断核心路由器电源,紧急更换故障端口或板卡; (5)进入备份路由器配置状态,恢复主干线路连接;

(6)故障出现到交易恢复可在10分钟之内解决,到主干线路恢复全程故障解决可在30分钟之内。 7.2 路由器背板或电源故障

当核心路由器背板(包括CUP、内存等)或电源模块出现故障,导致核心路由器瘫痪时,正常情况下,EIGRP动态路由协议会使所有中断线路的备份线路自动启动,保证网络连接的畅通。当线路自动切换失败时:

(1)XXXX银行进入备份路由器配置状态,PING命令手工拨号与所有对端建立连接;

(2)应用系统重新建立连接; (3)交易恢复;

(4)紧急更换冷备核心路由器,并保证软、硬件配置相同; (5)进入备份路由器配置状态,恢复主干线路连接;

(6)故障出现到交易恢复可在10分钟之内解决,到主干线路恢复全程故障解决可在30分钟之内。 8

核心交换机故障

8.1 端口和板卡故障

当核心交换机端口或板卡出现故障,导致该端口或板卡所连接主机设备通讯发生中断时,正常情况下,主机设备另外一块网卡将自动通过热备核心交换机HSRP协议与浮动地址进行数据通讯,交易不会受到任何影响,当主机无法通过热备核心交换机与浮动地址通讯时:

(1)进入核心交换机配置状态,shutdown故障端口或板卡,或直接将故障端口网线拔下;

(2)当主机和核心交换机连接彻底中断后,主机另一块网卡将自动通过热备核心交换机;

(3)交易恢复;

(4)切断核心交换机电源,紧急更换故障端口或板卡;

(5)故障出现到交易恢复可在10分钟之内解决,到主干线路恢复全程故障解决可在30分钟之内。 8.2 交换机背板或电源故障

当核心交换机背板(包括CPU、内存等)或电源模块出现故障,导致核心交换机瘫痪时,正常情况下,HSRP协议会将浮动地址自动重新绑定到热备交换机,主机设备将通过另一块网卡通过热备交换机进行数据通讯。当HSRP协议自动切换失败时:

(1)进入核心交换机配置状态,shutdown连接主机设备端口,或直接将连接主机端口网线拔下;

(2)切断核心交换机电源,使备份交换机激活standby地址; (3)交易恢复;

(4)紧急更换冷备核心交换机,并保证软、硬件配置相同;

(5)故障出现到交易恢复可在10分钟之内解决,到主干线路恢复全程故障解决可在30分钟之内。 9

防火墙故障

9.1 端口、主板和电源故障

当防火墙发生端口、主板或电源系统故障时,导致防火墙直接瘫痪无法工作,正常情况下备份防火墙将通过failover机制自动接管浮动failover地址,保证网络不会中断。当failover接管失败时:

(1)切断两台防火墙电源,紧急更换配置相同的冷备防火墙; (2)交易恢复;

(3)故障出现到全程解决可在30分钟之内。 9.2 配置更改故障

当防火墙因为配置更改错误发生故障,导致网络连接中断时: (1)进入防火墙配置状态,上传更改前备份配置文件到防火墙; (2)重新引导防火墙;

(3)交易恢复,保存配置到failover防火墙;

(4)故障出现到交易恢复可在30分钟之内解决。

10 发卡系统双机热备切换

双机热备的目的是在进行系统维护或出现系统故障时将应用切换到备机上运行,减少应用系统的停机时间。进行Cluster切换有以下几种情况:

(1)正常切换

此时系统工作正常,进行手动切换是为了在主节点上进行硬件扩充、补丁升级等系统维护工作,或进行Cluster切换定期演练工作。

(2)系统硬件故障切换 CPU/MEMORY

如果出现内核使用的CPU/MEMORY故障,造成操作系统panic,将引发Cluster切换。

I/O

如果多个IO设备同时发生故障,造成IO通道完全中断,必然造成应用异常中断,但不会引发Cluster切换,必须手动控制,将故障主机重新启动才可以实现Cluster切换。当然,如果IO设备故障如果造成操作系统panic,将引发Cluster切换。

电源、风扇等附件

如果多个电源故障,可能造成SF25K异常断电,引发Cluster切换;如果多个风扇故障,由于温度过高,会造成主机panic,并引发Cluster切换。

(3)网络故障切换

网络包括Cluster内部通讯的私网和对外服务的公网两部分。

当公网完全中断,Cluster的内部机制可以发现问题并引发Cluster切换;当私网完全中断,按Cluster的机制,将随机选择Cluster中两台主机中的一台panic,并引发Cluster切换。

(4)操作系统故障切换

如果发生任何可能造成系统危险的故障,操作系统会自动panic,而Cluster可以实现在一台主机panic后重启的情况下,将应用程序切换到另外一台主机上。

(5)Cluster软件故障切换

目前使用的Cluster 3.2本身就是和操作系统捆绑在一起的,也就是说Cluster软件的故障也会导致操作系统故障并panic,进而引发Cluster切换。

(6)应用故障切换

在应用程序层次,Cluster提供了接口进行监控和切换机制的自定义。由于应用系统故障情况比较复杂,故发卡系统目前没有对应用系统进行监控,应用系统的故障不能被Cluster发现并自动切换,只能由手动干预操作。 10.1双机热切换触发方式

如上所述,当Cluster检测到系统硬件故障、网络故障、操作系统故障或Cluster软件本身故障等严重故障时,会自动触发切换。而一些系统、网络或应用方面的局部故障需要人工检测和判断,根据实际情况采用人工切换的方式。正常切换也需要采用人工方式。

人工切换即手动运行Cluster命令进行切换。发卡系统中切换命令如下所示: 将XXXX银行贷记卡系统从Domain A切换到Domain B的命令为:

# scswitch -z -g jxnxdbiprg, jxnxdbapprg, jxnxdbgrg -h cupd25k-b 运行切换命令后,Cluster将有关资源从主节点切换到备用节点。 10.2双机热切换前准备工作

切换前准备工作只针对手工切换的情况,其目的是为了保证切换的成功,对主节点和备用节点进行检查。

(1)主节点检查

使用scstat命令检查主节点上各Cluster资源组状态处于ONLINE状态。 检查数据库v$locked_object视图,确定无死锁存在。 (2)备用节点检查

由于换版时需要将备用节点和主节点进行同步,且平时可能会在备用节点进行一些维护工作,故需对备用节点进行检查,确保应用运行环境与主节点保持一致。

使用scstat命令检查备用节点上各Cluster资源组处于OFFLINE状态。 检查备用节点上有关DB2数据库实例和listener已启动并运行正常。 检查备用节点文件系统有足够可用空间,确认操作系统日志中无异常报错信息。