“智控工作无彩排,每天都是现场直播”,说的是智控中心目前的状态,演练只是在理想环境下的上演,不能满足所有的突发事故。
6月23号17:50分,临近下班,智控中心接到电话:煤气化所有操作站出现白屏,系统持续报警,现场监控数据完全丢失,需要立即进行处理。
根据故障现象描述,班长初步估计主服务器故障且主备切换未成功,导致数据链接丢失,如不尽快恢复,长时间失控将会导致装置停车甚至安全风险。班组兵分两路,一路远程连接备用服务器查看状态,吩咐操作人员刷新两台Console操作站等待数据恢复,一路奔赴煤气化DCS机房检查硬件。
到达机房后,接到操作人员反映,操作台数据已经逐渐恢复,团队成员凝重的神情才开始纾解。检查发现主服务器前置屏上提示E1410错误,服务器已宕机,断电重启无法开机。目前系统是单服务器运行,如果再出现故障,那么主控除去2台Console站的其他工作站将无法查看数据,事不过夜,团队决定当天解决故障,睡个安稳觉。
利用手机迅速在网上找到错误信息,故障代码与CPU关联极强,如果CPU故障,目前仓库没有备件可以替换,在清查同类型服务器过程中,发现煤气化片区的杀毒服务器型号跟它一样,暂时挪来替换。
经检查,原服务器新加了一个双口网卡,硬件不完全一样,6块硬盘,做了3个RAID1,必须从硬盘上恢复RAID信息,否则数据被清掉,只能重新安装。班长迅速组织人员,把网卡拆除到新的服务器上,硬盘替换掉,开机从硬盘恢复信息。
事与愿违,服务器安装上电后,操作系统可正常启动,但控制系统相关的几个关键服务无法启动,导致系统无法运行,班长果断决定将系统恢复到今年3月份的备份版本。时间已近22:00点,大家饥肠辘辘,利用系统恢复的间隙吃点东西,继续工作。
恢复备份后,发现情况依旧,经过多方排查,对比两台服务器情况,判断是FTE驱动异常,决定拆除网卡,利用服务器自带网口做FTE,功夫不负有心人,几番折腾重启后,服务器各服务软件恢复正常了,凌晨时分,主备服务器同步成功,切换正常,交付运行。替换下来的原主服务器在软件修改变更后,系统已恢复正常,杀毒服务器也能正常投用。
智控中心虽然专业是工艺自动化控制系统,但与计算机硬件、软件和网络打交道也是工作必备技能,只有不断学习和实践,才能更好的提供服务。