將時(shí)間撥回三十年前的1989年,那一年第一家中國(guó)公司(中國(guó)銀行)登上了世界500強(qiáng)的榜單,第一條橫貫太平洋海底的光纖開(kāi)通了,冷戰(zhàn)時(shí)代的標(biāo)志物柏林墻也倒塌了。在IT監(jiān)控界Micromuse公司成立了,隨后該公司推出的監(jiān)控產(chǎn)品Netcool成為20世紀(jì)90年代和21世紀(jì)初領(lǐng)先的集中監(jiān)控管理工具。在進(jìn)入中國(guó)后就開(kāi)始橫掃中國(guó)IT界:四大行、四大運(yùn)營(yíng)商(還有網(wǎng)通的時(shí)代)幾乎中國(guó)頂尖IT公司都在使用的這款產(chǎn)品。
遙想當(dāng)年這套軟件幫助了無(wú)數(shù)的IT組織管理它們的IT環(huán)境,提升維護(hù)效率,確保了業(yè)務(wù)的穩(wěn)定。然而在過(guò)去40年里,IT環(huán)境發(fā)生了翻天覆地的變化。IT不再以蝸牛的速度來(lái)演進(jìn),各種新的應(yīng)用程序和服務(wù)以令人眼花繚亂的速度不斷的推出,同時(shí)云計(jì)算、容器、大數(shù)據(jù)、人工智能等技術(shù)的出現(xiàn)又再次加速這一步伐。逐漸的我們發(fā)現(xiàn)大量的IT事件層出不窮,業(yè)務(wù)服務(wù)無(wú)法得到保證。
到底為什么Netcool不能解決我的問(wèn)題,它不再酷了呢?
“經(jīng)典”的探針,完美兼容上個(gè)世紀(jì)的產(chǎn)品
Netcool的Probes提供了大量的開(kāi)箱即用的數(shù)據(jù)采集能力,但是針對(duì)的對(duì)象都是北電,3com等上個(gè)世紀(jì)的產(chǎn)品。然而對(duì)某公司、華三等新興廠商卻鮮有提供,更不用說(shuō)AWS、阿里云等新興的云平臺(tái)了。這主要是因?yàn)镹etcool是從電信領(lǐng)域起家的,所以該公司致力于與電信設(shè)備的整合。在官網(wǎng)上搜索一下,你會(huì)發(fā)現(xiàn)一長(zhǎng)串與朗訊、北電的開(kāi)箱即用的集成清單,近幾年也増加些某公司的設(shè)備,但除此之外就沒(méi)什么了。你無(wú)法找到于當(dāng)今流行的比如像zabbix,Cacti?等IT監(jiān)控系統(tǒng)的集成。
當(dāng)然也是由于2006年IBM Tivoli收購(gòu)Micromuse后對(duì)該產(chǎn)品的集成拓展不足造成的。但根本的原因還是:Netcool的發(fā)明本來(lái)就是為了管理像交換機(jī)這種傳統(tǒng)電信設(shè)備的。因此,如果你想監(jiān)控朗訊5ESS交換機(jī)(當(dāng)然前提是你現(xiàn)在還可以找的到)或支持3GPP協(xié)議的無(wú)線設(shè)備,那么Netcool是一個(gè)非常好的選擇。但是如果您想管理一個(gè)現(xiàn)代的、基于云的IT環(huán)境,那就沒(méi)有那么幸運(yùn)了,這需要付出大量的成本來(lái)開(kāi)發(fā)相關(guān)的系統(tǒng)集成接口。
不可維護(hù)的事件處理規(guī)則
現(xiàn)在,讓我們假設(shè)你可以將相關(guān)監(jiān)控工具進(jìn)行集成,數(shù)據(jù)可以發(fā)送到Netcool中。那么你要如何對(duì)這些接入的事件進(jìn)行去重、壓縮、過(guò)濾和關(guān)聯(lián)以減少告警噪音呢? 沒(méi)錯(cuò)就是**寫腳本!**如果您熟悉Netcool Omnibus,您可能知道規(guī)則文件是什么樣的。它是一個(gè)龐大的代碼集合,控制接入事件數(shù)據(jù)的處理。換句話說(shuō),Netcool希望您自己編寫并維護(hù)自己的事件處理系統(tǒng)。
在過(guò)去,當(dāng)我們?cè)跀?shù)據(jù)中心僅需要管理有限的設(shè)備時(shí),這種方法很容易奏效。當(dāng)時(shí),IT環(huán)境一年到頭都不會(huì)改變,所以大多數(shù)情況下,都不需要更改規(guī)則文件。然而,IT技術(shù)發(fā)展到今天,我們的監(jiān)控事件出現(xiàn)了爆炸式增長(zhǎng),因?yàn)槲覀冃枰芾頂?shù)百種不同且不斷發(fā)展的應(yīng)用程序和底層基礎(chǔ)設(shè)施??烤帉懩_本是不可能跟上的,原因是它成本太高、太容易出錯(cuò),而且效率也太低了。
面向?qū)ο蟮氖录幚碓O(shè)計(jì)
Netcool是為這樣一個(gè)時(shí)代而設(shè)計(jì)的:“單節(jié)點(diǎn)集中計(jì)算的大型機(jī),單一線路,IT和網(wǎng)絡(luò)環(huán)境的任何問(wèn)題都會(huì)造成很嚴(yán)重的影響,不能容忍任何故障”,主要面向的用戶是系統(tǒng)和網(wǎng)絡(luò)管理員。主要解決的將大量重復(fù)事件歸并為單個(gè)可操作的告警。因此,需要使用過(guò)濾規(guī)則來(lái)減少噪音、自定義規(guī)則來(lái)對(duì)不同警報(bào)建?;蜿P(guān)聯(lián)在一起。
這種設(shè)計(jì)是一種面向?qū)ο蟮氖录幚恚敲嫦蚍?wù)的。雖然你可以再采購(gòu)Tivoli TBSM工具,但是你辛苦地構(gòu)建服務(wù)映射,并將它們導(dǎo)入Netcool Impact(同樣需要單獨(dú)采購(gòu))中,得到的也僅僅是一個(gè)服務(wù)與基礎(chǔ)設(shè)施的關(guān)聯(lián)視圖,并不能顯示事件對(duì)業(yè)務(wù)服務(wù)造成的影響也無(wú)法支撐進(jìn)行根源定位。
但是現(xiàn)代事件管理系統(tǒng)已經(jīng)不只是查看孤立的實(shí)時(shí)事件數(shù)據(jù)。而是需要通過(guò)關(guān)聯(lián)類似的歷史事件和CMDB關(guān)系來(lái)準(zhǔn)確地確定事件的優(yōu)先級(jí),通過(guò)學(xué)習(xí)歷史事件模式來(lái)預(yù)測(cè)未來(lái)事件,然后在這些模式重現(xiàn)時(shí)發(fā)出警報(bào)等高級(jí)能力,才能解決復(fù)雜IT環(huán)境帶來(lái)事件風(fēng)暴的挑戰(zhàn)。
雖然,Netcool已經(jīng)不再適應(yīng)當(dāng)今IT環(huán)境的發(fā)展了,但是仍然有大量IT組織無(wú)法痛下決心進(jìn)行替換,每年總是修修補(bǔ)補(bǔ)自己開(kāi)發(fā)一些新的功能,同時(shí)還付著昂貴的費(fèi)用購(gòu)買維保。
到底是什么原因造成了這種現(xiàn)象的呢?
1.缺少動(dòng)因 得過(guò)且過(guò)
雖然面向服務(wù)的運(yùn)維概念提出很多年了,但是絕大多數(shù)的運(yùn)維團(tuán)隊(duì)還是面向單個(gè)事件的管理,這是因?yàn)镮T規(guī)模剛剛進(jìn)入爆發(fā)期,以事件為中心的運(yùn)維管理體系還能勉強(qiáng)支撐,IT維護(hù)的團(tuán)隊(duì)會(huì)要求各個(gè)專業(yè)團(tuán)隊(duì)并行值班,業(yè)務(wù)出現(xiàn)問(wèn)題每個(gè)團(tuán)隊(duì)分頭定位,經(jīng)常出現(xiàn)所有團(tuán)隊(duì)都沒(méi)問(wèn)題,但是業(yè)務(wù)服務(wù)就是不可用的現(xiàn)象。因?yàn)槎际切?wèn)題,隨便編個(gè)理由就推脫了。這種現(xiàn)象有點(diǎn)像是溫水煮青蛙,沒(méi)有出現(xiàn)嚴(yán)重的IT業(yè)務(wù)故障,他們是不會(huì)疼得從鍋里跳出來(lái)的。
2.被事件規(guī)則綁架
大多數(shù)Netcool建設(shè)都在5年以上,積累了大量的事件處理規(guī)則,并且這些規(guī)則多是以代碼形式存在的,鮮有說(shuō)明。隨著人員的更替,許多規(guī)則就算失效了但是也無(wú)人敢動(dòng),所以也就被“綁架”了,只能購(gòu)買昂貴的維保服務(wù)不斷地在老系統(tǒng)上進(jìn)行持續(xù)更新。
3.沉默成本不愿舍棄
對(duì)于Netcool的上世紀(jì)UI風(fēng)格大家普遍無(wú)法接受,絕大多數(shù)團(tuán)隊(duì)都在此基礎(chǔ)上進(jìn)行了定制化的開(kāi)發(fā)。開(kāi)發(fā)出來(lái)的交互大家已經(jīng)習(xí)慣了,替換起來(lái)還需重新適應(yīng),團(tuán)隊(duì)又要走出舒適區(qū),也就多一事不如少一事了。
除了以上IT組織內(nèi)部的問(wèn)題外,市場(chǎng)上缺乏可替代產(chǎn)品也是非常重要的因素。雖然近幾年各種IT運(yùn)維軟件層出不窮,DEVOPS、AIOPS、NOOPS各種理念也不斷推出,但是真正專注到監(jiān)控,定位在集中事件處理上的卻非常少見(jiàn)。對(duì)于事件處理的功能大多數(shù)軟件都是兼職進(jìn)行,無(wú)論是事件豐富、壓縮、過(guò)濾等基本功能,還是事件聚類、影響分析、根因定位等高階能力都是缺失的。
到底一款什么樣的產(chǎn)品才能在適應(yīng)IT發(fā)展帶來(lái)的挑戰(zhàn),又能降低IT組織替換Netcool的風(fēng)險(xiǎn)呢?
面向工具的集成能力
作為新一代的集中監(jiān)控平臺(tái),定位是對(duì)監(jiān)控?cái)?shù)據(jù)的匯聚和集中處理,而不是基礎(chǔ)數(shù)據(jù)的采集。因此需要具備強(qiáng)大的工具集成能力,不僅能夠提供市場(chǎng)主流的監(jiān)控工具和IT管理平臺(tái)開(kāi)箱即用的集成,還應(yīng)該支持豐富的接口協(xié)議,可以靈活的集成各種自行開(kāi)發(fā)的監(jiān)控工具。
事件規(guī)則可維護(hù)能力
在當(dāng)今AI機(jī)器學(xué)習(xí)尚不成熟的情況下,在集中事件處理過(guò)程中,基于規(guī)則的事件處理仍然占據(jù)主導(dǎo)。但是新一代事件平臺(tái),決不能走腳本化規(guī)則配置的老路,要讓事件處理規(guī)則配置能夠零門檻,任何人都可以維護(hù)。如果要做到可維護(hù),首先就需要能夠讓人易于理解,使用人類語(yǔ)言而非機(jī)器語(yǔ)言;其次,需要提供規(guī)則的統(tǒng)計(jì)分析,讓維護(hù)人員掌握每條規(guī)則的使用情況;再次,定義處理規(guī)則后能夠進(jìn)行快速驗(yàn)證,包括驗(yàn)證觸發(fā)條件,以及處理的結(jié)果數(shù)據(jù);最后,事件被規(guī)則處理的過(guò)程應(yīng)該是可追溯的,每條告警事件可以清晰的看到是被哪些規(guī)則所影響。
面向服務(wù)故障管理能力
所謂的面向服務(wù)的故障管理能力,系統(tǒng)需要能夠從業(yè)務(wù)服務(wù)的維度,將孤立的各個(gè)領(lǐng)域的事件進(jìn)行聚類,后續(xù)機(jī)器處理是指可以輸出給專業(yè)的系統(tǒng)進(jìn)行處理,例如:輸出給智能運(yùn)維平臺(tái)進(jìn)行根因分析計(jì)算;讓人處理就不僅僅是將所有事件打組展示,而更需要提供一系例的故障定位和分析工具,能夠從時(shí)間和架構(gòu)等各個(gè)維度提供數(shù)據(jù)的交互展示能力,便于故障的快速定位。
持續(xù)運(yùn)營(yíng)的產(chǎn)品能力
正所謂,冰凍三尺非一日之寒,集中監(jiān)控的建設(shè)也并不是一蹴而就的,建設(shè)得好僅僅是開(kāi)始,還需要持續(xù)不斷的運(yùn)營(yíng)優(yōu)化。但是如何運(yùn)營(yíng)呢?最基本的是對(duì)系統(tǒng)不斷測(cè)量與優(yōu)化,向系統(tǒng)業(yè)務(wù)目標(biāo)不斷推進(jìn)。而集中監(jiān)控的目標(biāo)應(yīng)該是:“及時(shí)準(zhǔn)確告警與高效快速排障”,所以要想運(yùn)營(yíng)好集中監(jiān)控系統(tǒng),就需要針對(duì)這些目標(biāo)定義出測(cè)量指標(biāo)。例如:告警的準(zhǔn)確性可以從監(jiān)控的漏報(bào)率、誤報(bào)率、派單率等維度建立;而高效快速排障則可以從故障發(fā)現(xiàn)時(shí)長(zhǎng)、響應(yīng)時(shí)長(zhǎng)、定位時(shí)長(zhǎng)等維度進(jìn)行衡量。然而這些指標(biāo)靠人工進(jìn)行統(tǒng)計(jì)與分析是不可持續(xù)的,就需要新一代監(jiān)控產(chǎn)品具備在線的指標(biāo)統(tǒng)計(jì)和分析能力,并且根據(jù)分析結(jié)果給出進(jìn)一步的建議以不斷優(yōu)化,從而不斷提升告警的準(zhǔn)確性與及時(shí)性,加快故障排查的速度與效率。
當(dāng)然除了以上這些能力外,集中事件平臺(tái)的事件豐富、壓縮、過(guò)濾等能力也是必備的,靈活的事件通知能力以及開(kāi)放的系統(tǒng)接口都是基本能力。
相信隨著國(guó)內(nèi)IT組織的不斷壯大,國(guó)產(chǎn)軟件的創(chuàng)新能力不斷增強(qiáng),中國(guó)的Netcool 將很快就會(huì)到來(lái)。大路朝天,未來(lái)可期!
