故障處理和操作變更是運維兩大主題。在過去,為維護系統穩定性,需要投入大量人力進行故障處理工作,除直接人肉運維外,針對不同業務深度制定的運維工具、系統被研發出來。隨著業務規模擴張和形態變遷,傳統運維模式受到極大挑戰,表現如下:
無統一的開發管理模式,運維服務開發及維護成本大,運維效率低。
橫向擴展能力差,運維經驗難以復用,各產品線“重復造輪子”。
智能運維開發框架,提供了一種以軟件工程方式解決運維問題的解決方案。通過提供統一的開發模型和管理機制,支持不同業務運維操作的設計、實現和管理。目的如下:
降低設計、開發難度與成本,使業務OP傳統運維人員專注自身的業務邏輯,提高開發和迭代效率。
促進基于代碼的跨業務經驗積累與分享,提升整體的業務運維能力。
充分運用和發揮自動控制、機器學習、人工智能等領域的技術成果,提高運維效率。
2
標準化、工程化和智能化
智能運維開發框架以Noah(百度運維管理平臺)的運維經驗為基礎,通過對運維概念和操作的統一,整合當前運維系統,提供運維操作的統一入口;讓更多的業務線OP傳統運維人員加入到運維社區建設中,共享運維經驗,滿足業務日益多樣化的需要。具體解決思路分為三部分。
1、運維模式標準化
統一開發模式:提供統一的開發規范,社區化開發模式,業務線OP傳統運維人員共同參與運維操作開發,沉淀運維經驗。
統一運維對象:通過知識庫,統一描述機器、實例、服務、應用等運維對象的屬性,聚集分散的運維狀態數據,達到公司內運維對象的統一。
統一運維操作:屏蔽具體平臺操作實現,提供統一的運維對象操作接口。
2、運維開發工程化
提供統一的運維開發框架:封裝常用功能組件,提供高擴展的開發框架,使業務專注于自身業務邏輯,開發”智能運維機器人”。
提供仿真系統:通過提供服務拓撲搭建及模擬故障的能力,完成機器人上線前功能驗證,提高”機器人”可靠性。
提供托管平臺:通過提供高可用的機器人托管環境,降低服務運維成本。
3、運維操作智能化
智能感知:依賴監控系統提供的智能異常檢測、多維度異常分析,感知滿足時效性和準確度的異常事件。
智能決策:自定義算法實現決策機制,充分利用機器學習、人工智能成果,提供決策可靠性。并沉淀人對問題的決策經驗,做到經驗可遷移。
智能執行:提供豐富的執行策略,滿足業務線通用運維操作的需求。
上一篇
在網站首頁標題中布局關鍵詞