數據中心SDN網絡運維

當SDN業務部署完成後,運維的對象從傳統網絡的一張物理網絡變為業務、邏輯和物理三張網絡,但傳統運維手段缺少對業務和邏輯層網絡狀態的監控,一旦應用出現問題,故障難以定界;海量租戶業務的不斷上線與變更,使得網絡隨之動態調整,基於業務配置的人為逐一排查方式無法快速定位問題。
運維人員可以看到現在數據中心跟傳統數據中心在運維管理的方式上存在著改變,這些改變主要圍繞幾個方面:首先,新型數據中心的管理對像增加,針對普通由交換機、服務器構成的底層網絡,在物理網絡基礎上疊加了一個邏輯網絡。公有雲提供服務的時候,對租戶還有一層租戶網絡,所以這樣其實是多層的網絡。另外,隨著虛擬化技術的增長,虛擬交換機引入,運維人員不僅僅關注物理服務器,更需要關注虛擬交換機的問題。同時,伴隨著租戶的需求,邏輯網絡可能是實時動態調整的,這也要求管理時間精度會相應提高。
為了滿足「動態性、實時性、大規模」的網絡運維挑戰, SDN運維架構需要圍繞下面2個方面打造:
1、可視化:看得見,看得清
「看得見」有兩個方面的含義:
觀察對象可視:可監控物理和邏輯對像,包括網元級別的節點和接口等,也包括網絡級別的鏈路、邏輯路徑和應用質量等。
觀察的實時性:支持毫秒級別現象的感知(比如流量微突發)、低頻率( < 10-4)的丟包。
「看得清」意味著針對觀察的準確性,需要採集和分析海量的數據。包括:
疑難問題定位:基於採集的「大數據」和實時分析,及時發現偶發性丟包和流量黑洞等。
2、自動化:自修復,自優化
傳統的網絡運維架構是一個單向的系統,而不是一個負反饋系統。網絡運維包括兩個方向:管理員在下行方向配置網絡,然後通過上行方向獲得網絡的狀態,也就是說,網絡的部署和狀態是割裂的,通過管理員進行有限的溝通。這種機制顯然無法滿足網絡故障自修復和網絡自優化的需求。自動化的運維需要構建「閉環」運維架構,具體包括:
延遲修復:發現故障後,首先隔離故障,不影響現有業務。
診斷修復:結合採集的「大數據」和經驗數據庫,進行自動修復或給出明確的修復方案。
網絡優化:及時發現網絡存在的「病態」,如流量不均衡和流量擁塞風險等,通過閉環系統,由網絡部署系統自動進行調整,把故障消滅在萌芽狀態。
通過SDN網絡狀態可視化度量管理和基於大數據的智能分析實現分鐘級故障定位,幫助客戶提升運維效率、降低運維成本。