百度服務器每天會收到數百億次來自用戶的請求,這些請求在到達百度服務器之前,需要在百度外的公共網絡上經過多層網絡設備(如運營商接入交換機等)和鏈路(如運營商骨干網鏈路、省網鏈路等)的轉發及傳輸。公共網絡中的設備或者鏈路故障,會導致部分用戶無法正常訪問百度的服務,影響用戶體驗。因此,需要對用戶到百度的外網連通性進行實時監控,在故障時引導用戶流量繞過故障設備/鏈路,從而提高用戶體驗。
獵鷹:作為百度外網質量監控平臺,對整個百度的外網訪問質量進行實時監測,實現了分鐘級的外網故障發現和告警,同時提供豐富的數據可視化展示,為百度服務的可用性保駕護航,成為百度運維工程師日常工作的必備利器之一。
接下來,本文將對百度外網質量監控平臺獵鷹進行介紹,主要介紹外網監控概述、外網故障場景以及相關需求。
為什么需要外網監控?
百度擁有數十萬臺服務器,這些服務器分布在不同地理位置的互聯網數據中心中。當用戶訪問百度服務的時候,域名解析服務(DNS)會給用戶返回一個VIP地址(虛機地址),然后用戶的請求會被轉發到這個VIP地址上。用戶的請求在到達這個VIP地址之前,依次會經過用戶本地接入設備(比如ADSL)→用戶所在地域的網絡運營商接入設備→運營商骨干網鏈路→百度IDC所在地域的運營商接入設備→百度IDC的VIP.
外網監控對運維的價值
那么對于百度的運維工程師和網絡組工程師來說,日常工作中對外網監控系統有哪些通用需求呢?通過對運維工程師和網絡組工程師進行相關調研,整理需求如下:
1、真實反映用戶到百度IDC間的網絡訪問質量
對于運維工程師來說,他們真正關注的是影響用戶訪問體驗的網絡故障,因此,真實反映用戶到百度IDC間的網絡訪問質量是外網監控系統進行網絡質量監測的基礎。
2、覆蓋全國三大運營商的各個省份
百度服務每天會收到數百億次來自三大運營商各個省份的用戶請求,為了盡可能多地發現用戶端到百度IDC間的網絡問題,監測點應當盡量覆蓋三大運營商的各個省份。
3、準確快速地主動告警,確定故障類型及影響范圍
當出現網絡故障時,需要快速檢測出故障并進行主動告警,需要確定故障類型(機房側故障、骨干網故障、單省份故障),以便于決定采取何種策略進行止損,并且需要確定故障影響范圍(即哪些業務線受到影響了),沒有受到影響的業務線的運維工程師不需要收到故障告警。同時,為了盡可能地縮短故障影響的時間,需要盡可能快地檢測出故障。
4、支持不同視角的可視化展示
運維工程師通常情況下只關注與其服務相關的網絡質量視圖,而網絡組工程師通常需要關注全局的網絡質量視圖,因此需要提供多種不同視角的網絡質量視圖,讓運維工程師和網絡組工程師都能夠快速地獲取到其關心的網絡質量視圖。
小結
本文從宏觀上介紹了百度外網質量監控的意義、外網故障場景分類以及百度運維工程師對外網監控系統的需求。