昌暉儀表通過DCS系統(tǒng)工作站時(shí)鐘混亂引發(fā)DCS系統(tǒng)失靈的故障處理案例,分享儀表工處理NTP報(bào)警故障的思路和方法。
背景
某電廠2號機(jī)組負(fù)荷200MW,#1至#9控制器處于控制方式,#51至#59控制器處于備用方式。8時(shí)23分,各控制器依次發(fā)NTP報(bào)警,歷史站報(bào)警窗口顯示如下:
Aug 3 08:23:50 drop7<7>NTP:too many recvbufs allocated(30)
Aug 3 08:23:50 drop4 <7>NTP:too many recvbufs allocated(30)
……(注:NTP為網(wǎng)絡(luò)時(shí)間協(xié)議;Network Time Protocol用來同步網(wǎng)絡(luò)中各個(gè)計(jì)算機(jī)的時(shí)間的協(xié)議。)
8:26,#2控制器脫網(wǎng),#52控制器切為主控;
11:05,#52控制器脫網(wǎng);
13:39,#7控制器脫網(wǎng),#57控制器切為主控,在#7控制器向#57控制器切換瞬間,由該控制器控制的A、B磨煤機(jī)跳闡;
15:11,#9控制器脫網(wǎng),#59控制器切為主控,在#9控制器向#59控制器切換瞬間,由該控制器控制的E磨煤機(jī)跳闡;
15:51,#1控制器脫網(wǎng),#51控制器切為主控,在#1控制器向#51控制器切換瞬間,由該控制器控制的A引風(fēng)機(jī)動葉被強(qiáng)制關(guān)閉。
15:22,重啟操作員站drop213(備用時(shí)鐘站),NTP報(bào)警未消失;
15:35,重啟歷史站,NTP報(bào)警未消失
15:59,重啟工程師站(主時(shí)鐘站),NTP報(bào)警基本消失;
16:09,重啟歷史站;
16:30,系統(tǒng)恢復(fù)正常。
故障原因分析
1、NTP軟件的作用就是維持網(wǎng)絡(luò)時(shí)鐘的統(tǒng)一,主時(shí)鐘設(shè)置在工程師站上,備用時(shí)鐘設(shè)置在操作員站上。控制器脫網(wǎng)原因?yàn)橹鲿r(shí)鐘與備用時(shí)鐘不同步造成系統(tǒng)時(shí)鐘紊亂,從而造成NTP報(bào)警導(dǎo)致控制器脫網(wǎng)。
2、NTP故障的原因有兩種可能,一種是主頻為400MHz工作站,不同于1號機(jī)組的270MHz(SUN公司在400MHz工作站上對操作系統(tǒng)有較大改進(jìn))工作站,2號機(jī)組所用的1.1版本軟件在400MHz工作站上未測試過,不能確保1.1版本軟件在此配置上不出問題。另一種是主時(shí)鐘與備用時(shí)鐘不同步,在8月3日控制器脫網(wǎng)后,曾發(fā)現(xiàn)Drop214的時(shí)鐘比其它站快了2秒,當(dāng)時(shí)Drop214的畫面調(diào)用速度較慢,經(jīng)重啟后正常,并且NTP時(shí)鐘報(bào)警是在系統(tǒng)運(yùn)行73-75天左右才出現(xiàn)的,估計(jì)是系統(tǒng)時(shí)鐘偏差積累到一定程度后導(dǎo)致主、 備時(shí)鐘不同步,而引起系統(tǒng)時(shí)鐘紊亂,最終導(dǎo)致控制器脫網(wǎng)。
3、NTP時(shí)鐘故障使控制器脫網(wǎng),處理不及時(shí)會使報(bào)警的控制器依次脫網(wǎng),從而導(dǎo)致整個(gè)控制系統(tǒng)癱瘓。
防范措施
1、根據(jù)本次故障現(xiàn)象,制造商將軟件1.1版本升級為1.2版本。
2、為確保控制系統(tǒng)可靠運(yùn)行,定期重啟主時(shí)鐘和備用時(shí)鐘站。
電廠5號機(jī)組在試運(yùn)期間曾發(fā)生DCS時(shí)鐘與GPS時(shí)鐘不同步,引發(fā)DCS操作員失靈事件。由于網(wǎng)上傳送的數(shù)據(jù)均帶時(shí)間標(biāo)簽,時(shí)鐘紊亂后會給運(yùn)行機(jī)組帶來嚴(yán)重后果,基本情況與2號機(jī)組類似。采取的措施是暫時(shí)斷開GPS時(shí)鐘,待軟件升級和問題得到根本解決后,再恢復(fù)GPS時(shí)鐘。