IT監(jiān)控作為IT的伴生系統(tǒng),應(yīng)對了各種IT技術(shù)發(fā)展帶來的挑戰(zhàn),然而在容器和微服務(wù)的時代到來之際,IT監(jiān)控會面臨哪些挑戰(zhàn)?又應(yīng)該如何應(yīng)對呢?
一、IT監(jiān)控的現(xiàn)狀
01.規(guī)模增大,IT系統(tǒng)越發(fā)復(fù)雜
現(xiàn)在企業(yè)的IT環(huán)境早已不是少量幾臺服務(wù)器就可以支撐的,各企業(yè)IT團隊都需要應(yīng)對各種IT復(fù)雜的環(huán)境:物理機、虛擬機、IAAS、PASS、各種應(yīng)用等。而近兩年微服務(wù)和容器等技術(shù)的發(fā)展,讓基礎(chǔ)設(shè)施的管理對象越來越多,也越來越分散;同時敏捷迭代的思維,上層的應(yīng)用程序發(fā)布節(jié)奏也更加頻繁。當(dāng)這些因素疊加在一起,就造成了企業(yè)IT監(jiān)控的數(shù)據(jù)量以指數(shù)級的增加,以至于遠(yuǎn)遠(yuǎn)超出了“人類”的處理能力。
02.精細(xì)化“全棧”監(jiān)控時代已經(jīng)到來
為了應(yīng)對現(xiàn)代IT系統(tǒng)的復(fù)雜性,絕大多數(shù)企業(yè)已經(jīng)放棄傳統(tǒng)“一刀切”的單維監(jiān)控方案,轉(zhuǎn)而投向立體分散的“全?!北O(jiān)控方法。如今IT系統(tǒng)的監(jiān)控平均要使用大約6-8個工具,其中至少包括:系統(tǒng)監(jiān)控、用戶行為監(jiān)控、APM、錯誤檢測、日志分析、網(wǎng)絡(luò)監(jiān)控、ITSM工單系統(tǒng)。因為各種工具相互割裂缺乏有效的整合,工程師需要不斷地對各種屏幕和儀表板進行操作。
二、IT監(jiān)控需要面對的挑戰(zhàn)
01.告警風(fēng)暴頻發(fā)
不斷增加的工具數(shù)量與所需要處理的龐大數(shù)據(jù)相結(jié)合后,必然出現(xiàn)海量告警數(shù)據(jù),從而導(dǎo)致告警風(fēng)暴問題。每當(dāng)發(fā)生故障時,IT團隊都被來自多個監(jiān)控工具的告警所淹沒,但卻沒有任何關(guān)于整體問題的歸納。這樣不僅難以快速檢測和分類問題,而且還阻礙IT團隊發(fā)現(xiàn)可能更為嚴(yán)重的問題。
02. 運維壁壘顯現(xiàn)
運維部門常會碰到以下場景:核心業(yè)務(wù)系統(tǒng)不能正常訪問,大家都不知道問題出在哪,只能將各領(lǐng)域人員召集到一起分析。各管理員往往有自己獨立的監(jiān)控平臺,大家各自為政分頭檢查,沒有人能知道完整的總體情況,導(dǎo)致系統(tǒng)的恢復(fù)時間較長,給企業(yè)帶來負(fù)面影響。監(jiān)控數(shù)據(jù)層面,各領(lǐng)域監(jiān)控數(shù)據(jù)割離,不能集中分析和展現(xiàn),無法深入挖掘運維價值。怎么第一時間全面掌握IT各領(lǐng)域系統(tǒng)運行狀況,及時發(fā)現(xiàn)系統(tǒng)隱患和問題?
03. 事件處理低效
業(yè)務(wù)對IT運維精細(xì)化要求越來越高,精細(xì)化的運維必然要求對海量運維數(shù)據(jù)的實時深入分析,這樣也就帶來了大量的數(shù)據(jù)采集,從不同維度對管理對象進行監(jiān)控,從而產(chǎn)生大量的事件數(shù)據(jù)。在有限的人力情況下,如何高效的采集、存儲、分析處理和展現(xiàn)大量事件數(shù)據(jù)?并且避免傳統(tǒng)集中監(jiān)控平臺在事件量太大造成告警延遲和丟失問題。
三、新一代IT監(jiān)控的能力需求
01.監(jiān)控事件的匯聚與處理
**事件匯總:**匯總不同層級、不同專業(yè)、不同類型的事件是集中監(jiān)控的基礎(chǔ),無論是底層的動環(huán)、傳輸、網(wǎng)絡(luò)、主機,中間層的操作系統(tǒng)、中間件、數(shù)據(jù)庫,還是上層的應(yīng)用都應(yīng)該進行匯聚接入到統(tǒng)一事件臺。
**事件歸集:**IT系統(tǒng)之間復(fù)雜的關(guān)聯(lián)性和全面立體的監(jiān)控體系背景下,一個故障會觸發(fā)多類指標(biāo)的告警,同一個指標(biāo)在故障未解除前也會重復(fù)產(chǎn)生大量的告警事件。如果將全部事件都展示出來,那對于監(jiān)控處理人員將是“災(zāi)難性”的,所以需要進行事件按照不同維度的歸集。
**事件重定級:**對于不同的事件不僅需要有適當(dāng)層次的事件分級,同時也應(yīng)在故障時段內(nèi)事件的變化態(tài)勢,以及IT系統(tǒng)架構(gòu)的健壯性方面,更加智能的完成事件重定級策略。事件分級是將事件當(dāng)前緊急程度進行標(biāo)識顯示,事件重定級是從時間、架構(gòu)、指標(biāo)等多維度的度量后對事件的級別給予二次定義,讓運維人員的寶貴時間可以投入到更有價值的事務(wù)中。
02.監(jiān)控數(shù)據(jù)的可視化
**統(tǒng)一可視化:**統(tǒng)一展示不同來源的事件,支持不同角色用戶管理不同的事件,包括事件的確認(rèn)、通知、屏蔽、轉(zhuǎn)工單等閉環(huán)操作,無需在不同監(jiān)控工具上多次操作。
**事件策略可視化:**能夠?qū)⒚恳粋€事件處理策略由過去“黑盒”,轉(zhuǎn)變?yōu)檎麄€運維團隊都可以查看、定義透明的“水晶盒”。
**處理過程可視化:**不僅事件處理策略運維團隊能夠共享,對于事件處理的過程與指標(biāo)也應(yīng)該共享給整個運維團隊,以便于不同領(lǐng)域的管理員可以從自身業(yè)務(wù)出發(fā)來對這些事件處理給予評估及優(yōu)化。
**故障分析可視化:**在故障出現(xiàn)后需要能夠快速的展示應(yīng)用與應(yīng)用、事件與事件之間的關(guān)聯(lián)關(guān)系,以便于運維人員能夠快速完成故障的定位與處理。
03.運營工作的持續(xù)投入
對于IT監(jiān)控的標(biāo)桿企業(yè),雖然監(jiān)控的對象、環(huán)境各不相同,但是他們有一個共同的特點——對監(jiān)控系統(tǒng)運營工作的持續(xù)投入。例如:由專人負(fù)責(zé)告警治理,統(tǒng)計事件情況,分析事件風(fēng)暴的原因并形成告警策略,對告警進行過濾、壓縮、關(guān)聯(lián)、歸集等策略設(shè)定及驗證,并且會遵照PDCA循環(huán)方式不斷地對策略優(yōu)化,經(jīng)過一段事件的運營后,需要人工處理的事件,會下降至原始事件的10%至20%。為了更好的完成運營工作就要求監(jiān)控平臺能為監(jiān)控運營分析提供“武器與彈藥”,能夠提供從各個維度為運營人員提供數(shù)據(jù)和分析工具。
四、新一代IT監(jiān)控解決方案帶來的收益
01.提升處理效率
通過事件歸集智能地將警報分組和關(guān)聯(lián)到相關(guān)事件中,依靠事件時序圖和業(yè)務(wù)架構(gòu)圖模式,可以從時間和空間兩個維度進行故障定位,從而更容易地發(fā)現(xiàn)關(guān)鍵問題并找出根本原因。此外通過告警歸集將獲得事件的完整關(guān)聯(lián)信息,而不僅僅是單個告警的信息。例如,可以讓您快速發(fā)現(xiàn)整個集群遇到了磁盤問題,而不是浪費時間來分析單個主機的磁盤I / O警報??梢员苊夤收咸幚頃r間的浪費,提升故障處理時效。
02.提高監(jiān)控能效
在遵照PDCA循環(huán)方式進行監(jiān)控的持續(xù)運營過程中,大量無效事件會被過濾、壓縮,事件信息會更加豐富,事件之間的關(guān)聯(lián)關(guān)系也將更加清晰。使得監(jiān)控管理員可以關(guān)注真正需要處理的故障,并且方便獲取與故障相關(guān)的信息,從而不斷提高監(jiān)控效能。
