
圖片來自網(wǎng)絡(luò)
某公司IT運(yùn)維張經(jīng)理非常頭疼,每天都像救火隊(duì)員一樣在這樣的事情中奔波,這是來自于他的自述……
“一次正好趕上公司年中大促,也是一年里沖業(yè)績的關(guān)鍵一周。結(jié)果關(guān)鍵業(yè)務(wù)的交易系統(tǒng)出現(xiàn)了運(yùn)行緩慢,部分業(yè)務(wù)在系統(tǒng)交易時(shí)候出現(xiàn)卡頓、無法登陸的現(xiàn)象。這種情況發(fā)生以后,業(yè)務(wù)線上的每個(gè)人都像炸開了鍋,而在之前我們?yōu)榱吮U蠘I(yè)務(wù)系統(tǒng)正常運(yùn)行已經(jīng)做了充分的準(zhǔn)備,但是沒想到還是出現(xiàn)了這樣的狀況,我們的壓力可想而知。我們運(yùn)維人員迅速開始馬不停蹄的排查,查資源使用情況、網(wǎng)絡(luò)環(huán)境情況、中間件是否正常、服務(wù)是否正常、日志是否報(bào)錯(cuò)、交易數(shù)據(jù)還有沒有……時(shí)間不知不覺的在敲鍵盤、敲鍵盤、敲鍵盤中過去,但是原因還未定位。
總經(jīng)理也過來了解情況,業(yè)務(wù)部門一直在催促,我們飯也顧不上吃。最終,折騰了一天以后定位到問題原因是其中一個(gè)功能沒有控制返回?cái)?shù)量,導(dǎo)致內(nèi)存泄露。
伴隨公司數(shù)字化轉(zhuǎn)型和業(yè)務(wù)規(guī)模化發(fā)展,設(shè)備量實(shí)現(xiàn)指數(shù)型增長,幾年的時(shí)間,服務(wù)器從幾百臺(tái)增加到5000千臺(tái)。雖然技術(shù)已經(jīng)不可同日而語,我們幾十人的IT支持團(tuán)隊(duì)仍然每天應(yīng)接不暇的需要處理各種稀奇古怪的情況。
因此我們需要一個(gè)良好的監(jiān)控系統(tǒng)可以讓我們快速地發(fā)現(xiàn)并定位問題,減少宕機(jī)時(shí)間,提高故障處理速度,減輕運(yùn)維工作的壓力。同時(shí),防患于未然,及時(shí)預(yù)警,減少事故的發(fā)生也是IT運(yùn)維工程師實(shí)現(xiàn)IT業(yè)務(wù)工作的核心價(jià)值。”
美信監(jiān)控易——一體化集中監(jiān)控平臺(tái)能夠從以下方面幫助張經(jīng)理解決令其頭疼的監(jiān)控運(yùn)維問題。
1)監(jiān)控可視化
以前監(jiān)控都是模糊的、離散的、不統(tǒng)一的告警、預(yù)警等,現(xiàn)在轉(zhuǎn)變?yōu)榍逦梢姷摹M晟频谋O(jiān)控平臺(tái)需要有統(tǒng)一的可視化操作界面,運(yùn)維人員需要能夠快速的看到相應(yīng)的運(yùn)行數(shù)據(jù)。監(jiān)控易提供儀表盤、狀態(tài)統(tǒng)計(jì)、蘋果樹等多種監(jiān)控視圖,方便用戶一目了然查看整個(gè)IT系統(tǒng)的當(dāng)前運(yùn)行狀態(tài),對預(yù)、告警的管理對象和監(jiān)測點(diǎn)進(jìn)行實(shí)時(shí)過濾,實(shí)現(xiàn)快速故障定位和根源診斷。比如:能夠看到一段時(shí)間的趨勢、故障期間的數(shù)據(jù)表現(xiàn)、性能分析的情況等等數(shù)據(jù),且這些數(shù)據(jù)可以提前制定好策略直接推出分析結(jié)果給故障處理人員,這樣就大大提高了故障的處理效率。

2)監(jiān)控全面
監(jiān)控最基本的工作就是實(shí)現(xiàn)對負(fù)載均衡設(shè)備、網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)設(shè)備、安全設(shè)備、數(shù)據(jù)庫、中間件及應(yīng)用軟件等IT資源的全面監(jiān)控管理。監(jiān)控易運(yùn)維監(jiān)控平臺(tái)可以對上百家廠商的軟件、硬件及應(yīng)用業(yè)務(wù)系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)控,全面性的應(yīng)用監(jiān)控可以讓故障提前預(yù)警,并保存了影響應(yīng)用運(yùn)行環(huán)境的數(shù)據(jù),以縮短故障處理時(shí)間。

3)及時(shí)預(yù)警、告警、快速定位
監(jiān)控易運(yùn)維監(jiān)控平臺(tái)采用自己先進(jìn)的調(diào)度技術(shù)可以把監(jiān)測點(diǎn)的顆粒度精確到秒級,以保證監(jiān)測數(shù)據(jù)的實(shí)時(shí)性和精確性,做到當(dāng)客戶關(guān)鍵設(shè)備出現(xiàn)異常時(shí)能在第一時(shí)間里發(fā)現(xiàn)問題,發(fā)出報(bào)警,為客戶解決問題贏得寶貴的時(shí)間。監(jiān)控易運(yùn)維監(jiān)控平臺(tái)達(dá)到最快輪詢頻率為5秒一次,大大縮短網(wǎng)絡(luò)的故障響應(yīng)時(shí)間,降低網(wǎng)絡(luò)故障的損失。

4)告警方式全面
完善的監(jiān)控策略需要有清晰的監(jiān)控告警提示,值班人員要以根據(jù)監(jiān)控告警即可作出簡單的問題定位與應(yīng)急處理方案。監(jiān)控易IT基礎(chǔ)架構(gòu)出現(xiàn)故障前及時(shí)預(yù)、告警,告警方式包括顏色、手機(jī)短消息、郵件、聲音、腳本、彈出短消息框等多種方式,可以任意自定義告警閥值、告警方式、觸發(fā)條件等,支持對大型IT系統(tǒng)的告警批量設(shè)置。
管理員可以通過短信內(nèi)容看到哪個(gè)系統(tǒng)、哪個(gè)應(yīng)用、哪個(gè)模塊出了什么問題,可能是什么原因,對業(yè)務(wù)有什么影響,是否需要馬上處理。

5)完善的性能評估和故障診斷報(bào)表
完善的監(jiān)控策略不僅需要有實(shí)時(shí)的數(shù)據(jù)告警,也要有匯總數(shù)據(jù)分析能力,能發(fā)現(xiàn)潛在風(fēng)險(xiǎn),同時(shí)也為分析疑難雜癥提供幫忙。
監(jiān)控易強(qiáng)大的報(bào)表管理工具,支持將不同的關(guān)聯(lián)監(jiān)測指標(biāo)放到同一圖形中進(jìn)行比較和分析的報(bào)表功能,比如用戶可以將接口流量、CPU和內(nèi)存的使用率以及數(shù)據(jù)庫的關(guān)鍵指標(biāo)放在一個(gè)圖形中進(jìn)行關(guān)聯(lián)分析,來評估服務(wù)器和數(shù)據(jù)庫的負(fù)載及其他性能狀況。
