DCS系統(tǒng)通訊故障
一、事件經(jīng)過
10月20日20時40分,#4機(jī)在運(yùn)行中DCS的五臺操作員站大部分?jǐn)?shù)據(jù)顯示紫色,約2分鐘后又自動恢復(fù)到正常(此種現(xiàn)象以前曾多次發(fā)生)。21時31分,#3爐在吹灰過程中,突然發(fā)現(xiàn)#4機(jī)DCS的五臺操作員站所有的數(shù)據(jù)均為紫色,不能自動恢復(fù)。運(yùn)行人員立即通知檢修人員速進(jìn)廠處理。因DCS全部死機(jī),無法在遠(yuǎn)方監(jiān)視機(jī)組情況,運(yùn)行值班人員在就地監(jiān)視水位,壓力,溫度等關(guān)鍵參數(shù),并作好隨時打閘停機(jī)的事故準(zhǔn)備。經(jīng)熱工同意,運(yùn)行人員對服務(wù)器主機(jī)重啟,仍然無法恢復(fù)。
檢修人員在現(xiàn)場檢查發(fā)現(xiàn)所有PCU柜上的通訊接口主模件,包括NPM和ICT的狀態(tài)燈均為紅色,故障代碼為均為LED2&5燈亮(為LOOPBACK故障或NIS故障)。但是所有MFP12主模件以及對應(yīng)的子模件均工作正常(機(jī)組仍能維持運(yùn)行)。對ICT模件進(jìn)行復(fù)位和拔插操作,故障依舊,不能消除。經(jīng)運(yùn)行、檢修人員商討決定進(jìn)行停機(jī)檢查。機(jī)組停機(jī)后,對NPM模件進(jìn)行復(fù)位和拔插操作,故障依舊不能消除。
待#2機(jī)、4機(jī)和#11機(jī)均已停機(jī)后,將中心環(huán)的PCU電源停掉,再將#4機(jī)的#2、#5、#7和#9PCU的電源停掉,并將所有的NIS模件拔出后,將中心環(huán)甩開,單獨(dú)檢查#4機(jī)的環(huán)路電纜:
#2PCU→#5PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
#5PCU→#7PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
#7PCU→#9PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
#9PCU→#2PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
將中心環(huán)連接#4機(jī)環(huán)路側(cè)的兩塊NIS模件拔出后,單獨(dú)檢查#4機(jī)到中心環(huán)的環(huán)路電纜:
#2PCU→#18PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
#18PCU→#2PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
檢查環(huán)路電纜沒有短路現(xiàn)象。
仍然將中心環(huán)甩開,將#4機(jī)環(huán)路電纜接好,并將所有的NIS模件插入后,將#4機(jī)的#2、5、7和#9PCU重新上電,自檢完成后,所有的ICI和NPM模件狀態(tài)均顯示正常(包括SOE的接點(diǎn),EWS的ICI需要在EWS上人為連接),五臺操作員站的所有數(shù)據(jù)均顯示正常,通訊系統(tǒng)恢復(fù)正常,初步懷疑故障起因源自中心環(huán)的IIL模件。
為驗(yàn)證上述的懷疑,再次將中心環(huán)接入#4機(jī)環(huán)路,將包括中心環(huán)在內(nèi)的所有PCU重新上電,自檢完成后,#4機(jī)環(huán)路上所有的ICI和NPM模件狀態(tài)均顯示正常(包括SOE的接點(diǎn)),五臺操作員站的所有數(shù)據(jù)均顯示正常,但位于中心環(huán)PCU柜上18-6-1、18-6-2、18-6-3位置的IIL模件仍處于故障狀態(tài),而另一IIL模件則正常。之后進(jìn)行如下試驗(yàn):
NPM、MFP各自的冗余切換。
正常的啟機(jī)操作。
旁路快開/快關(guān)保護(hù)。
汽機(jī)保護(hù)傳動。
SERVER和CLIENT的切換。
以上試驗(yàn)均正常,機(jī)組具備開機(jī)條件(如果要開機(jī),當(dāng)時設(shè)想將掛在#4機(jī)的中心環(huán)甩開,解環(huán)運(yùn)行)。
21日7時15分,完成上述的檢查與處理。22日下午,制造廠工程師到達(dá)后開始進(jìn)行如下檢查、處理:
檢查通訊接口子模件以及對應(yīng)的端子板NTCL01,當(dāng)檢查到位于中央環(huán)的IIL模件時,發(fā)現(xiàn)與#2環(huán)相聯(lián)的一個NIS11模件,無論其對應(yīng)的IIT主模件處于主還是備用時,與其相聯(lián)的TCL端子板上的狀態(tài)燈均激活(不正常)。
當(dāng)復(fù)位對應(yīng)的IIT主模件時,該IIT主模件也進(jìn)入故障模式,故障代碼為2&5紅燈。此時如果對其他的PCU柜內(nèi)的NIS/NPM模件做冗余切換,則該P(yáng)CU柜內(nèi)的NPM模件將顯示故障,故障代碼為1、3、5紅燈。
如果拔出上述有問題的NIS11模件,再復(fù)位任一NPM模件,則該NPM模件故障消失。
接著將上述有問題的NIS11模件重新插回原來的位置,再將#2環(huán)內(nèi)的所有四個PCU柜均斷電后再上電,發(fā)現(xiàn)所有四個PCU柜內(nèi)的NPM主模件均進(jìn)入故障模式,錯誤代碼為2、5紅燈,并且#2PCU柜內(nèi)的一塊NIS11模件上的所有十六個LED均紅閃,表明輸入到該NIS11子模件的兩個控制環(huán)均斷路。此時如果拔出上述有問題的NIS子模件,再復(fù)位任一個NPM模件,則該NPM模件工作正常,如果不拔出上述有問題的NIS模件,復(fù)位任一個故障的NPM模件,則該NPM模件依舊進(jìn)入故障模式,故障代碼依舊。
將上述有問題的NIS11模件和PCU7內(nèi)一個NIS11模件交換,故障依舊。用一個新的NIS11模件替代上述有問題的NIS11模件,則故障消失。上述故障是由于該NIS11子模件損壞所致,即更換了該模件。
二、原因分析
1.本次故障為NIS11模件損壞造成。按SYMPHONY DCS控制系統(tǒng)的設(shè)計(jì),如果一個NIS11子模件故障,則該NIS11子模件以及對應(yīng)的NPM模件均進(jìn)入故障模式,與該NIS11子模件相聯(lián)的TCL端子板將兩個控制環(huán)自動旁路,同時處于后備模式的NIS/NPM模件將接替上述故障的NIS/NPM的工作。但本次事件中NIS11子模件故障后,未能將對應(yīng)端子板上連接的兩個控制環(huán)旁路,顯然不正常。這種故障屬于極罕見現(xiàn)象。至于NIS11模件上的哪個部件損壞會導(dǎo)致上述現(xiàn)象,有待于進(jìn)一步分析。
2.關(guān)于SERVER25有時也出現(xiàn)顯示數(shù)據(jù)為紫色、大約2-3分鐘后自動恢復(fù)的現(xiàn)象。20日檢查時初步懷疑為,#7PCU上有一段Control Way與該SERVER的ICI通信模件相連所致,為了驗(yàn)證上述懷疑,當(dāng)時拔掉該段Control Way觀察。11月3日,#4機(jī)DCS的SERVER#25三臺電腦參數(shù)再次出現(xiàn)壞質(zhì)量,約一分鐘后自動恢復(fù)(從此可以否定當(dāng)初的懷疑)。故障原因尚待分析查找,目前初步懷疑SERVER的ICI通信模件有問題,11月5日,將SERVER25與工程師站的ICI(ICT+NIS)模件進(jìn)行了對調(diào),待繼續(xù)觀察。
三、防范措施
1.在每臺機(jī)組的SERVER上增加中心環(huán)節(jié)點(diǎn)的標(biāo)簽,與其他節(jié)點(diǎn)的標(biāo)簽一樣,將他們的報(bào)警級別設(shè)置為帶音響的最高級。
2.加強(qiáng)對PCU模件柜的巡檢工作,每天巡檢機(jī)組時必須觀察PCU模件柜中主要模件的狀態(tài)。
3.在近期利用停機(jī)間隙,對所有機(jī)組的DCS機(jī)柜和操作員站進(jìn)行一次徹底的清灰工作。
4.制訂出Symphony系統(tǒng)的定期工作和日常維護(hù)導(dǎo)則,并對運(yùn)行人員進(jìn)行相關(guān)培訓(xùn),重點(diǎn)進(jìn)行DCS系統(tǒng)本身故障(軟件、硬件)報(bào)警的判別及處理,即出現(xiàn)哪些(級別)報(bào)警時需立即停機(jī)處理;哪些(級別)可待檢修到場處理等。
5.對于NIS模件的故障原因,要求制造廠盡快找出故障原因并提出改進(jìn)措施。
6.DCS通信系統(tǒng)故障后,機(jī)組的操作采用應(yīng)急方案。
?