將時間撥回三十年前的1989年,那一年第一家中國公司(中國銀行)登上了世界500強的榜單,第一條橫貫太平洋海底的光纖開通了,冷戰(zhàn)時代的標志物柏林墻也倒塌了。在IT監(jiān)控界Micromuse公司成立了,隨后該公司推出的監(jiān)控產(chǎn)品Netcool成為20世紀90年代和21世紀初領先的集中監(jiān)控管理工具。在進入中國后就開始橫掃中國IT界:四大行、四大運營商(還有網(wǎng)通的時代)幾乎中國頂尖IT公司都在使用的這款產(chǎn)品。
遙想當年這套軟件幫助了無數(shù)的IT組織管理它們的IT環(huán)境,提升維護效率,確保了業(yè)務的穩(wěn)定。然而在過去40年里,IT環(huán)境發(fā)生了翻天覆地的變化。IT不再以蝸牛的速度來演進,各種新的應用程序和服務以令人眼花繚亂的速度不斷的推出,同時云計算、容器、大數(shù)據(jù)、人工智能等技術的出現(xiàn)又再次加速這一步伐。逐漸的我們發(fā)現(xiàn)大量的IT事件層出不窮,業(yè)務服務無法得到保證。
到底為什么Netcool不能解決我的問題,它不再酷了呢?
“經(jīng)典”的探針,完美兼容上個世紀的產(chǎn)品
Netcool的Probes提供了大量的開箱即用的數(shù)據(jù)采集能力,但是針對的對象都是北電,3com等上個世紀的產(chǎn)品。然而對某公司、華三等新興廠商卻鮮有提供,更不用說AWS、阿里云等新興的云平臺了。這主要是因為Netcool是從電信領域起家的,所以該公司致力于與電信設備的整合。在官網(wǎng)上搜索一下,你會發(fā)現(xiàn)一長串與朗訊、北電的開箱即用的集成清單,近幾年也増加些某公司的設備,但除此之外就沒什么了。你無法找到于當今流行的比如像zabbix,Cacti?等IT監(jiān)控系統(tǒng)的集成。
當然也是由于2006年IBM Tivoli收購Micromuse后對該產(chǎn)品的集成拓展不足造成的。但根本的原因還是:Netcool的發(fā)明本來就是為了管理像交換機這種傳統(tǒng)電信設備的。因此,如果你想監(jiān)控朗訊5ESS交換機(當然前提是你現(xiàn)在還可以找的到)或支持3GPP協(xié)議的無線設備,那么Netcool是一個非常好的選擇。但是如果您想管理一個現(xiàn)代的、基于云的IT環(huán)境,那就沒有那么幸運了,這需要付出大量的成本來開發(fā)相關的系統(tǒng)集成接口。
不可維護的事件處理規(guī)則
現(xiàn)在,讓我們假設你可以將相關監(jiān)控工具進行集成,數(shù)據(jù)可以發(fā)送到Netcool中。那么你要如何對這些接入的事件進行去重、壓縮、過濾和關聯(lián)以減少告警噪音呢? 沒錯就是**寫腳本!**如果您熟悉Netcool Omnibus,您可能知道規(guī)則文件是什么樣的。它是一個龐大的代碼集合,控制接入事件數(shù)據(jù)的處理。換句話說,Netcool希望您自己編寫并維護自己的事件處理系統(tǒng)。
在過去,當我們在數(shù)據(jù)中心僅需要管理有限的設備時,這種方法很容易奏效。當時,IT環(huán)境一年到頭都不會改變,所以大多數(shù)情況下,都不需要更改規(guī)則文件。然而,IT技術發(fā)展到今天,我們的監(jiān)控事件出現(xiàn)了爆炸式增長,因為我們需要管理數(shù)百種不同且不斷發(fā)展的應用程序和底層基礎設施??烤帉懩_本是不可能跟上的,原因是它成本太高、太容易出錯,而且效率也太低了。
面向?qū)ο蟮氖录幚碓O計
Netcool是為這樣一個時代而設計的:“單節(jié)點集中計算的大型機,單一線路,IT和網(wǎng)絡環(huán)境的任何問題都會造成很嚴重的影響,不能容忍任何故障”,主要面向的用戶是系統(tǒng)和網(wǎng)絡管理員。主要解決的將大量重復事件歸并為單個可操作的告警。因此,需要使用過濾規(guī)則來減少噪音、自定義規(guī)則來對不同警報建?;蜿P聯(lián)在一起。
這種設計是一種面向?qū)ο蟮氖录幚?,而非面向服務的。雖然你可以再采購Tivoli TBSM工具,但是你辛苦地構(gòu)建服務映射,并將它們導入Netcool Impact(同樣需要單獨采購)中,得到的也僅僅是一個服務與基礎設施的關聯(lián)視圖,并不能顯示事件對業(yè)務服務造成的影響也無法支撐進行根源定位。
但是現(xiàn)代事件管理系統(tǒng)已經(jīng)不只是查看孤立的實時事件數(shù)據(jù)。而是需要通過關聯(lián)類似的歷史事件和CMDB關系來準確地確定事件的優(yōu)先級,通過學習歷史事件模式來預測未來事件,然后在這些模式重現(xiàn)時發(fā)出警報等高級能力,才能解決復雜IT環(huán)境帶來事件風暴的挑戰(zhàn)。
雖然,Netcool已經(jīng)不再適應當今IT環(huán)境的發(fā)展了,但是仍然有大量IT組織無法痛下決心進行替換,每年總是修修補補自己開發(fā)一些新的功能,同時還付著昂貴的費用購買維保。
到底是什么原因造成了這種現(xiàn)象的呢?
1.缺少動因 得過且過
雖然面向服務的運維概念提出很多年了,但是絕大多數(shù)的運維團隊還是面向單個事件的管理,這是因為IT規(guī)模剛剛進入爆發(fā)期,以事件為中心的運維管理體系還能勉強支撐,IT維護的團隊會要求各個專業(yè)團隊并行值班,業(yè)務出現(xiàn)問題每個團隊分頭定位,經(jīng)常出現(xiàn)所有團隊都沒問題,但是業(yè)務服務就是不可用的現(xiàn)象。因為都是小問題,隨便編個理由就推脫了。這種現(xiàn)象有點像是溫水煮青蛙,沒有出現(xiàn)嚴重的IT業(yè)務故障,他們是不會疼得從鍋里跳出來的。
2.被事件規(guī)則綁架
大多數(shù)Netcool建設都在5年以上,積累了大量的事件處理規(guī)則,并且這些規(guī)則多是以代碼形式存在的,鮮有說明。隨著人員的更替,許多規(guī)則就算失效了但是也無人敢動,所以也就被“綁架”了,只能購買昂貴的維保服務不斷地在老系統(tǒng)上進行持續(xù)更新。
3.沉默成本不愿舍棄
對于Netcool的上世紀UI風格大家普遍無法接受,絕大多數(shù)團隊都在此基礎上進行了定制化的開發(fā)。開發(fā)出來的交互大家已經(jīng)習慣了,替換起來還需重新適應,團隊又要走出舒適區(qū),也就多一事不如少一事了。
除了以上IT組織內(nèi)部的問題外,市場上缺乏可替代產(chǎn)品也是非常重要的因素。雖然近幾年各種IT運維軟件層出不窮,DEVOPS、AIOPS、NOOPS各種理念也不斷推出,但是真正專注到監(jiān)控,定位在集中事件處理上的卻非常少見。對于事件處理的功能大多數(shù)軟件都是兼職進行,無論是事件豐富、壓縮、過濾等基本功能,還是事件聚類、影響分析、根因定位等高階能力都是缺失的。
到底一款什么樣的產(chǎn)品才能在適應IT發(fā)展帶來的挑戰(zhàn),又能降低IT組織替換Netcool的風險呢?
面向工具的集成能力
作為新一代的集中監(jiān)控平臺,定位是對監(jiān)控數(shù)據(jù)的匯聚和集中處理,而不是基礎數(shù)據(jù)的采集。因此需要具備強大的工具集成能力,不僅能夠提供市場主流的監(jiān)控工具和IT管理平臺開箱即用的集成,還應該支持豐富的接口協(xié)議,可以靈活的集成各種自行開發(fā)的監(jiān)控工具。
事件規(guī)則可維護能力
在當今AI機器學習尚不成熟的情況下,在集中事件處理過程中,基于規(guī)則的事件處理仍然占據(jù)主導。但是新一代事件平臺,決不能走腳本化規(guī)則配置的老路,要讓事件處理規(guī)則配置能夠零門檻,任何人都可以維護。如果要做到可維護,首先就需要能夠讓人易于理解,使用人類語言而非機器語言;其次,需要提供規(guī)則的統(tǒng)計分析,讓維護人員掌握每條規(guī)則的使用情況;再次,定義處理規(guī)則后能夠進行快速驗證,包括驗證觸發(fā)條件,以及處理的結(jié)果數(shù)據(jù);最后,事件被規(guī)則處理的過程應該是可追溯的,每條告警事件可以清晰的看到是被哪些規(guī)則所影響。
面向服務故障管理能力
所謂的面向服務的故障管理能力,系統(tǒng)需要能夠從業(yè)務服務的維度,將孤立的各個領域的事件進行聚類,后續(xù)機器處理是指可以輸出給專業(yè)的系統(tǒng)進行處理,例如:輸出給智能運維平臺進行根因分析計算;讓人處理就不僅僅是將所有事件打組展示,而更需要提供一系例的故障定位和分析工具,能夠從時間和架構(gòu)等各個維度提供數(shù)據(jù)的交互展示能力,便于故障的快速定位。
持續(xù)運營的產(chǎn)品能力
正所謂,冰凍三尺非一日之寒,集中監(jiān)控的建設也并不是一蹴而就的,建設得好僅僅是開始,還需要持續(xù)不斷的運營優(yōu)化。但是如何運營呢?最基本的是對系統(tǒng)不斷測量與優(yōu)化,向系統(tǒng)業(yè)務目標不斷推進。而集中監(jiān)控的目標應該是:“及時準確告警與高效快速排障”,所以要想運營好集中監(jiān)控系統(tǒng),就需要針對這些目標定義出測量指標。例如:告警的準確性可以從監(jiān)控的漏報率、誤報率、派單率等維度建立;而高效快速排障則可以從故障發(fā)現(xiàn)時長、響應時長、定位時長等維度進行衡量。然而這些指標靠人工進行統(tǒng)計與分析是不可持續(xù)的,就需要新一代監(jiān)控產(chǎn)品具備在線的指標統(tǒng)計和分析能力,并且根據(jù)分析結(jié)果給出進一步的建議以不斷優(yōu)化,從而不斷提升告警的準確性與及時性,加快故障排查的速度與效率。
當然除了以上這些能力外,集中事件平臺的事件豐富、壓縮、過濾等能力也是必備的,靈活的事件通知能力以及開放的系統(tǒng)接口都是基本能力。
相信隨著國內(nèi)IT組織的不斷壯大,國產(chǎn)軟件的創(chuàng)新能力不斷增強,中國的Netcool 將很快就會到來。大路朝天,未來可期!
