為保證數據中心業務的正常運行,應提高處理公司服務器故障的能力,形成科學、有效、反應迅速的應急工作機制,制定出服務器出現故障後的緊急處理預案,確保數據中心各系統的安全和高效,最大限度地減小服務器故障對生產的影響,保證數據的完整性,並能隨時恢復;減少故障對數據的損失,最大限度地降低對系統產生的影響。
硬件故障:
當發生硬件故障時第一時間分析故障原因,用排除法找到故障原因.如果是內存、硬盤、電源故障可及時使用備用零件替換。如果是CPU、主板可用備用服務器頂替,以確保服務不中斷。如果當值人員無法排除故障,可向高階工程師請求技術支持並向上級經理匯報情況,由經理統一協調。同時電話通知相關業務部門,告知故障原因、處理時間。若故障服務器在短時間內無法修復,相關人員應啟動備用服務器,保持局域網系統的正常運行;將故障服務器脫離網絡,進行故障排除工作。故障處理結束後電話通知使用部門和部門經理告知處理結果。
故障處理:
(1)硬盤故障處理:當硬盤出現黃燈提示預警時,應先查看硬盤數據是否丟失,如數據存在應先做好數據備份,將此服務器各應用迅速轉移,然後排查報警具體原因,如由於錯誤操作或硬盤連接不好引起的報警,可嘗試重啟服務器,重新插拔硬盤等操作即可解決問題。如硬盤損壞,應及時將備用硬盤替換下故障硬盤,使服務器恢復正常工作。排查過程中,如不能正確判斷問題原因,不能隨便操作,可向原廠售後服務咨詢處理。
(2)內存故障:由於我們的服務器有多組內存,單條內存故障時,會對服務器性能稍有影響,當不會影響整體使用,所以如發現內存條損壞時,安排時間將損壞的內存條替換掉即可。
(3)RAID卡故障:服務器的RAID卡出現故障時,系統會無法識別出硬盤,服務器不能正常使用,所以應第一時間啟動備用服務器。將故障服務器移出生產網絡後更換RAID卡,RAID卡通過硬盤重新讀取RAID配置信息後即可恢復使用。
(4)電源故障:現階段我們的服務器都是單電,如果電源故障會使服務器完全癱瘓,預計將服務器都升級雙電,這樣在一個電源故障時,才有充足的時間將故障電源替換掉,從而減小電源故障對服務器的影響。
(5)CPU故障:我們的服務器多為雙CPU,所以在CPU故障時同內存一樣,只會對服務器性能有所影響,不會影響整體使用,所以及時安排時間將有問題的CPU換掉即可。
(6)網卡故障:啟用本機備用網卡,頂替故障網卡。
軟件故障:
做好服務器軟件系統的定時備份,系統崩潰後,能夠及時恢復系統。發生服務器軟件系統故障後,相關人員應檢查出現故障的原因並盡快排除。如遇服務器系統崩潰,應啟用備份系統進行恢復。如果當值人員無法排除故障,可向高階工程師請求技術支持並向上級經理匯報情況,由經理統一協調。同時電話通知相關業務部門,告知故障原因、處理時間。若故障服務器在短時間內無法修復,相關人員應啟動備用服務器,保持局域網系統的正常運行;將故障服務器脫離網絡,進行故障排除工作。故障處理結束後電話通知使用部門和部門經理告知處理結果。
故障處理:
在故障發生後立即查看系統狀態,如果是系統軟件出現故障,並且能進入系統,且可以清晰定位故障原因,並可以立即排除,那麼立即進行排除。如果估計在1小時之內都不能定位故障原因,那麼報告上級經理,同時應該斷開服務器的網絡連接,配合系統管理員和應用管理員,處理服務器故障,聯繫廠商及技術支持協助排除,盡快排除故障,恢復系統運行。
處理故障服務器的同時,通知管理員啟動冷備份系統,完成應用系統的安裝、設置,並進行數據的恢復,保證系統正常運行。
如果系統可以停機,而又沒有冷備份的系統,那麼應該通知管理員,備份現有系統的數據和程序,如果不能進行備份系統的數據和程序,系統管理員應該從最新的備份中修復和恢復系統。如果備份丟失或不存在,安全管理員應該報告上級經理,並求助技術支持商,完成對數據的恢復。
系統管理員應在確認安全的情況下,重新啟動故障服務器系統;重啟系統成功,則檢查數據丟失情況,利用備份數據恢復;若重啟失敗,立即聯繫相關廠商和技術支持,請求援助,分析故障原因,若經設備廠商或技術支持認定是硬件損壞,那麼需要請求廠商更具維修協議,進行保修或維修。在服務器硬件正常的情況下,盡快做好系統軟件的恢復或重新安裝,之後再進行應用軟件的恢復或重新安裝,再進行應用系統的數據恢復,應用系統完全恢復正常運行後,重新啟用恢復的應用系統服務器,再將備用系統停掉。