疫情防控形勢嚴峻復雜,企業(yè)都積極響應政府要求落實居家辦公,面對瞬息萬變的疫情,我們除了做好防護外,必須有所準備,必須適應。
“作為一名運維從業(yè)者,必須要講講疫情為運維工作帶來了哪些變化!”
01 疫情給運維工作帶來的變化
首先就是人員精簡,在疫情期間,為了避免聚集性疫情,大部分數(shù)據(jù)中心都采用AB崗輪班制、核心崗最小化辦公或是現(xiàn)場封閉辦公、居家協(xié)同,到崗率從原先的100%精簡到50%,甚至不到10%。
其次需求驟增,大眾的辦公、醫(yī)療、生活等各行各業(yè)都離不開“線上”,離不開網(wǎng)絡,舉個例子,6月2日,美團發(fā)布2022年第一季度業(yè)績,美團外賣營收同比增長至242億元,支撐數(shù)字背后除了外賣小哥和商家,大概就是大量的服務器和網(wǎng)絡數(shù)據(jù)了吧,服務器計算、存儲和網(wǎng)絡資源的需求急劇上升,運維工程師不僅要維持數(shù)據(jù)中心正常運行還要提高可用性,以便給急需的網(wǎng)絡和計算提供服務,并對停電或極端天氣事件等各種災難有明確的應急預案。
在如此艱難環(huán)境下,無論主設備與備用設備是萬萬不可出現(xiàn)故障的,這無疑為運維帶來了前所未有的挑戰(zhàn),數(shù)據(jù)中心管理者更是“壓力山大”。我們迫切需要方案解決以上問題,人員精簡是防疫的重要措施,那么我們只能考慮一下,如何提高運維工程師的工作效率了,且運維工程師的精力是有限的,那么我們勢必要借助一些管理工具。
02 如何應對以上變化?
應急方案
例如本次北京疫情,某數(shù)據(jù)中心借助nVisual網(wǎng)絡基礎設施管理軟件實現(xiàn)遠程查看機房情況,網(wǎng)絡部的同事在居家辦公時發(fā)現(xiàn)業(yè)務異常后通過工單告知現(xiàn)場運維部同事實現(xiàn)遠程配合排障。
不僅如此,nVisual網(wǎng)絡基礎設施管理平臺利用可視化的方式清晰的記錄設備與線纜、設備與設備之間的鏈路連接關系,并將數(shù)據(jù)中心全部設備以及線纜資料實現(xiàn)與對應設備線纜關聯(lián),建立了可視化的數(shù)據(jù)庫。包括但不限于紙質資料、圖像資料、字段信息(如設備IP地址、維保時間、負責人信息、配置OID、承載業(yè)務...)等。代替人工實現(xiàn)運維管理(包括事件管理、問題管理、變更管理、維護管理、故障管理、場地配置管理、設備生命周期管理、應急管理、質量管理、成本管理和安全管理等等)。
疫情當下,在日常作業(yè)中因為有了以上信息,知道重點業(yè)務由哪些設備承載,就可以實現(xiàn)重點業(yè)務重點保障、重點設備重點巡檢,從而減少重大事故發(fā)生的幾率,也規(guī)避有限人力資源浪費。
并且在發(fā)生故障時,有跡可循,循到的資料也能輕松看懂并掌握,利用現(xiàn)有數(shù)據(jù)以及歷史故障記錄等信息實現(xiàn)快速排障。居家辦公的同事也可通過VPN遠程訪問nVisual了解數(shù)據(jù)中心現(xiàn)場情況,配合高效處理,減少企業(yè)損失。
數(shù)據(jù)量的增加,不可避免新需求增加,當數(shù)據(jù)中心需要新設備上架時,通過nVisual內嵌的智能引導工具,即可實現(xiàn)傻瓜式作業(yè),人只需要配合手動上架即可,規(guī)劃其合理性、最優(yōu)最短路徑、配置線纜類型等工作都可由軟件代替。
通過以上手段提高突發(fā)疫情情況下,有限的運維工程師工作效率,讓其時間集中于有意義的保障工作,而不是把時間浪費在四處抓瞎、多部門通信協(xié)同之下,要知道,在金融行業(yè),一旦出現(xiàn)故障,損失可是以秒而計的。
長遠之計
以上只是疫情突發(fā)的臨時保障措施,疫情來勢洶洶是沒有預警的,企業(yè)唯一能做的,就是提前做好準備,這樣當突發(fā)情況從天而降時,才能保障業(yè)務通暢、安全、平穩(wěn)。
在整個數(shù)據(jù)中心生命周期中,數(shù)據(jù)中心運維管理是歷時最長的一個階段。運維管理是數(shù)據(jù)中心保障業(yè)務的重中之重,以前企業(yè)或是數(shù)據(jù)中心管理者總是將此重任寄望于“人”,但是人是不可控的、是有極限的、人與人之間也是有差異化的、能力也是參差不齊的,單純依靠老師傅的切身經(jīng)驗口口相傳,不如建立一套規(guī)范化、流程化的運維體系,將網(wǎng)絡基礎設施這樣寶貴的資源數(shù)據(jù)記錄在可控的服務器之中,這樣就算疫情中在數(shù)據(jù)中心內部是新來的運維工程師,對目前數(shù)據(jù)中心情況不清晰,他也可以通過歷史資料、設備信息快速掌握數(shù)據(jù)中心資源信息,快速投入到工作之中為企業(yè)帶來價值。而不是由企業(yè)花費大量的時間,占用老員工工作時間用來“口口相傳”。
隨著互聯(lián)網(wǎng)發(fā)展的不斷深入和互聯(lián)網(wǎng)應用的不斷多元化,互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模呈指數(shù)級增長,對互聯(lián)網(wǎng)數(shù)據(jù)中心的需求也將呈現(xiàn)指數(shù)級的增長。為滿足當前互聯(lián)網(wǎng)基礎設施的需求,數(shù)據(jù)中心還將不斷進行擴建,數(shù)據(jù)中心規(guī)模仍將保持上升的態(tài)勢,這就對數(shù)據(jù)中心建設規(guī)模、承載業(yè)務以及存儲與計算等技術提出了更高的要求,我們不應該再以老思路加上非常難維護的單機excel表格來管理我們的數(shù)據(jù)中心了,網(wǎng)絡基礎設施少說成百上千,端口、鏈路成千上萬,人海戰(zhàn)術能保障excel和CAD圖紙上數(shù)據(jù)三五年的準確性,十幾年呢?幾十年呢?要知道我國通信技術日新月異,一個數(shù)據(jù)中心的投入使用可遠不止三五年。相信在此次疫情之中,應當有不少運維工程師為了找尋故障點、調取資料等事情撓破了頭,打遍了電話吧...
小結
目前,一切生產(chǎn)生活在平穩(wěn)有序的恢復之中,企業(yè)數(shù)據(jù)中心管理者絕不可掉以輕心,勢必要從中吸取經(jīng)驗,防患于未然,數(shù)據(jù)中心事故基本都是“不鳴則已,一鳴驚人”,安全生產(chǎn),防大于治,選用nVisual網(wǎng)絡基礎設施管理平臺為企業(yè)的業(yè)務運行澆筑起“銅墻鐵壁”亦是大有裨益。