昌晖仪表通过DCS系统工作站时钟混乱引发DCS系统失灵的故障处理案例,分享仪表工处理NTP报警故障的思路和方法。
背景
某电厂2号机组负荷200MW,#1至#9控制器处于控制方式,#51至#59控制器处于备用方式。8时23分,各控制器依次发NTP报警,历史站报警窗口显示如下:
Aug 3 08:23:50 drop7<7>NTP:too many recvbufs allocated(30)
Aug 3 08:23:50 drop4 <7>NTP:too many recvbufs allocated(30)
……(注:NTP为网络时间协议;Network Time Protocol用来同步网络中各个计算机的时间的协议。)
8:26,#2控制器脱网,#52控制器切为主控;
11:05,#52控制器脱网;
13:39,#7控制器脱网,#57控制器切为主控,在#7控制器向#57控制器切换瞬间,由该控制器控制的A、B磨煤机跳阐;
15:11,#9控制器脱网,#59控制器切为主控,在#9控制器向#59控制器切换瞬间,由该控制器控制的E磨煤机跳阐;
15:51,#1控制器脱网,#51控制器切为主控,在#1控制器向#51控制器切换瞬间,由该控制器控制的A引风机动叶被强制关闭。
15:22,重启操作员站drop213(备用时钟站),NTP报警未消失;
15:35,重启历史站,NTP报警未消失
15:59,重启工程师站(主时钟站),NTP报警基本消失;
16:09,重启历史站;
16:30,系统恢复正常。
故障原因分析
1、NTP软件的作用就是维持网络时钟的统一,主时钟设置在工程师站上,备用时钟设置在操作员站上。控制器脱网原因为主时钟与备用时钟不同步造成系统时钟紊乱,从而造成NTP报警导致控制器脱网。
2、NTP故障的原因有两种可能,一种是主频为400MHz工作站,不同于1号机组的270MHz(SUN公司在400MHz工作站上对操作系统有较大改进)工作站,2号机组所用的1.1版本软件在400MHz工作站上未测试过,不能确保1.1版本软件在此配置上不出问题。另一种是主时钟与备用时钟不同步,在8月3日控制器脱网后,曾发现Drop214的时钟比其它站快了2秒,当时Drop214的画面调用速度较慢,经重启后正常,并且NTP时钟报警是在系统运行73-75天左右才出现的,估计是系统时钟偏差积累到一定程度后导致主、 备时钟不同步,而引起系统时钟紊乱,最终导致控制器脱网。
3、NTP时钟故障使控制器脱网,处理不及时会使报警的控制器依次脱网,从而导致整个控制系统瘫痪。
防范措施
1、根据本次故障现象,制造商将软件1.1版本升级为1.2版本。
2、为确保控制系统可靠运行,定期重启主时钟和备用时钟站。
电厂5号机组在试运期间曾发生DCS时钟与GPS时钟不同步,引发DCS操作员失灵事件。由于网上传送的数据均带时间标签,时钟紊乱后会给运行机组带来严重后果,基本情况与2号机组类似。采取的措施是暂时断开GPS时钟,待软件升级和问题得到根本解决后,再恢复GPS时钟。