為保證數據中心業務的正常運行,應提高處理公司服務器故障的能力,形成科學、有效、反應迅速的應急工作機制,制定出服務器出現故障後的緊急處理預案,確保數據中心各系統的安全和高效,最大限度地減小服務器故障對生產的影響,保證數據的完整性,並能隨時恢復;減少故障對數據的損失,最大限度地降低對系統產生的影響。
硬件故障:
當發生硬件故障時第一時間分析故障原因,用排除法找到故障原因.如果是內存、硬盤、電源故障可及時使用備用零件替換。如果是CPU、主板可用備用服務器頂替,以確保服務不中斷。如果當值人員無法排除故障,可向高階工程師請求技術支持並向上級經理匯報情況,由經理統一協調。同時電話通知相關業務部門,告知故障原因、處理時間。若故障服務器在短時間內無法修復,相關人員應啟動備用服務器,保持局域網系統的正常運行;將故障服務器脫離網絡,進行故障排除工作。故障處理結束後電話通知使用部門和部門經理告知處理結果。
故障處理:
(1)硬盤故障處理:當硬盤出現黃燈提示預警時,應先查看硬盤數據是否丟失,如數據存在應先做好數據備份,將此服務器各應用迅速轉移,然後排查報警具體原因,如由於錯誤操作或硬盤連接不好引起的報警,可嘗試重啟服務器,重新插拔硬盤等操作即可解決問題。如硬盤損壞,應及時將備用硬盤替換下故障硬盤,使服務器恢復正常工作。排查過程中,如不能正確判斷問題原因,不能隨便操作,可向原廠售後服務咨詢處理。
(2)內存故障:由於我們的服務器有多組內存,單條內存故障時,會對服務器性能稍有影響,當不會影響整體使用,所以如發現內存條損壞時,安排時間將損壞的內存條替換掉即可。
(3)RAID卡故障:服務器的RAID卡出現故障時,系統會無法識別出硬盤,服務器不能正常使用,所以應第一時間啟動備用服務器。將故障服務器移出生產網絡後更換RAID卡,RAID卡通過硬盤重新讀取RAID配置信息後即可恢復使用。
(4)電源故障:現階段我們的服務器都是單電,如果電源故障會使服務器完全癱瘓,預計將服務器都升級雙電,這樣在一個電源故障時,才有充足的時間將故障電源替換掉,從而減小電源故障對服務器的影響。
(5)CPU故障:我們的服務器多為雙CPU,所以在CPU故障時同內存一樣,只會對服務器性能有所影響,不會影響整體使用,所以及時安排時間將有問題的CPU換掉即可。
(6)網卡故障:啟用本機備用網卡,頂替故障網卡。
軟件故障:
做好服務器軟件系統的定時備份,系統崩潰後,能夠及時恢復系統。發生服務器軟件系統故障後,相關人員應檢查出現故障的原因並盡快排除。如遇服務器系統崩潰,應啟用備份系統進行恢復。如果當值人員無法排除故障,可向高階工程師請求技術支持並向上級經理匯報情況,由經理統一協調。同時電話通知相關業務部門,告知故障原因、處理時間。若故障服務器在短時間內無法修復,相關人員應啟動備用服務器,保持局域網系統的正常運行;將故障服務器脫離網絡,進行故障排除工作。故障處理結束後電話通知使用部門和部門經理告知處理結果。
故障處理:
在故障發生後立即查看系統狀態,如果是系統軟件出現故障,並且能進入系統,且可以清晰定位故障原因,並可以立即排除,那麼立即進行排除。如果估計在1小時之內都不能定位故障原因,那麼報告上級經理,同時應該斷開服務器的網絡連接,配合系統管理員和應用管理員,處理服務器故障,聯繫廠商及技術支持協助排除,盡快排除故障,恢復系統運行。
處理故障服務器的同時,通知管理員啟動冷備份系統,完成應用系統的安裝、設置,並進行數據的恢復,保證系統正常運行。
如果系統可以停機,而又沒有冷備份的系統,那麼應該通知管理員,備份現有系統的數據和程序,如果不能進行備份系統的數據和程序,系統管理員應該從最新的備份中修復和恢復系統。如果備份丟失或不存在,安全管理員應該報告上級經理,並求助技術支持商,完成對數據的恢復。
系統管理員應在確認安全的情況下,重新啟動故障服務器系統;重啟系統成功,則檢查數據丟失情況,利用備份數據恢復;若重啟失敗,立即聯繫相關廠商和技術支持,請求援助,分析故障原因,若經設備廠商或技術支持認定是硬件損壞,那麼需要請求廠商更具維修協議,進行保修或維修。在服務器硬件正常的情況下,盡快做好系統軟件的恢復或重新安裝,之後再進行應用軟件的恢復或重新安裝,再進行應用系統的數據恢復,應用系統完全恢復正常運行後,重新啟用恢復的應用系統服務器,再將備用系統停掉。

相 關 產 品

智慧醫療智慧醫療

09 Oct, 2020

BU4美編專用 AI應用
Read More
智慧教室智慧教室

16 Oct, 2020

BU4美編專用 AI應用
Read More
工廠設備預知保養工廠設備預知保養

17 Sep, 2020

BU4美編專用 AI應用
Read More
生產製程優化生產製程優化

17 Sep, 2020

BU4美編專用 AI應用
Read More