
傳統(tǒng)企業(yè)IT時(shí)代,企業(yè)IT運(yùn)維管理服務(wù)遵循基于國(guó)際ITIL標(biāo)準(zhǔn)的ITSM服務(wù)管理方法論及相關(guān)工具,IBM、HP、BMC和CA是ITSM“四大天王”。隨著云計(jì)算對(duì)于企業(yè)IT進(jìn)行了重新洗牌,以DevOps為代表的敏態(tài)IT對(duì)于以穩(wěn)態(tài)IT為代表的ITSM方法論及其產(chǎn)業(yè)形成了巨大的沖擊。作為IT服務(wù)管理的龍頭企業(yè),IBM在帶領(lǐng)企業(yè)向云轉(zhuǎn)型的過(guò)程中,也加碼了IT運(yùn)維管理向混合云與IT環(huán)境的轉(zhuǎn)型。

(IBM副總裁、技術(shù)支持服務(wù)部(TSS)大中華區(qū)總經(jīng)理潘軍)
“今天,企業(yè)面臨越來(lái)越多的挑戰(zhàn),既要保證安全生產(chǎn),又要給業(yè)務(wù)提供更大的靈活性。為了滿足這些需求,企業(yè)積極采用AI、混合云的新技術(shù),這讓其IT架構(gòu)和環(huán)境也變得日益復(fù)雜和多元”,IBM副總裁、技術(shù)支持服務(wù)部(TSS)大中華區(qū)總經(jīng)理潘軍表示,“IBM能為企業(yè)提供集成多品牌、一站式、高品質(zhì)服務(wù),幫助企業(yè)充分利用現(xiàn)有投資,極大程度地保障業(yè)務(wù)連續(xù)性,也為其業(yè)務(wù)創(chuàng)新提供強(qiáng)有力的支持。”
基于新的運(yùn)維方法論和智能運(yùn)維平臺(tái),IBM為眾多金融、通信、制造行業(yè)客戶提供多品牌一體化運(yùn)維服務(wù)、開(kāi)源軟件支持服務(wù)與開(kāi)源治理咨詢服務(wù)、機(jī)房巡檢機(jī)器人方案,以及運(yùn)用AR技術(shù)提供遠(yuǎn)程服務(wù)等,創(chuàng)造了大量混合云運(yùn)維管理的成功案例。特別是在疫情期間,IBM支持工程師克服了種種困難,保障了企業(yè)業(yè)務(wù)的連續(xù)性,堅(jiān)定了企業(yè)加速向云轉(zhuǎn)型的信心。
CSMO:混合云運(yùn)維方法論
異常復(fù)雜的混合云環(huán)境為企業(yè)IT運(yùn)維帶來(lái)了極大的挑戰(zhàn),而在數(shù)字化轉(zhuǎn)型下的企業(yè)業(yè)務(wù)向在線模式轉(zhuǎn)型,需要24小時(shí)不間斷保障業(yè)務(wù)在線運(yùn)營(yíng),同時(shí)還要保障業(yè)務(wù)APP的響應(yīng)時(shí)間必須達(dá)到用戶體驗(yàn)要求——業(yè)務(wù)APP一旦延時(shí)響應(yīng)用戶的點(diǎn)擊和業(yè)務(wù)請(qǐng)求,這就意味著新型“宕機(jī)”——用戶很有可能因?yàn)閹酌氲难訒r(shí)而停止購(gòu)買甚至轉(zhuǎn)向其它品牌。IBM在很早期就意識(shí)到了數(shù)字化時(shí)代帶給企業(yè)IT運(yùn)維的新挑戰(zhàn),并提出了新的方法論:CSMO。

(CSMO的主要組成方法論,圖片來(lái)源:IBM)
潘軍介紹,IBM在云時(shí)代的新運(yùn)維方法論叫做CSMO(CloudServiceManagementandOperations),這個(gè)方法論有四個(gè)主要的來(lái)源:第一是ITIL特別是ITIL4,ITIL4是國(guó)際IT服務(wù)標(biāo)準(zhǔn)在新時(shí)代的最新版本,也是面向敏態(tài)IT的全新版本,它在囊括了ITILV3的特色基礎(chǔ)上加入了對(duì)于DevOps等的支持;其次是敏態(tài)IT運(yùn)維方法論SRE(SiteReliabilityEngineering,站點(diǎn)可靠性工程),這是互聯(lián)網(wǎng)及公有云的運(yùn)維服務(wù)方法論;第三是InfrastructureasaCode即將基礎(chǔ)設(shè)施自動(dòng)化過(guò)程、運(yùn)維以及全球最佳實(shí)踐和案例等進(jìn)行整合;第四是加強(qiáng)了運(yùn)維與開(kāi)發(fā)的關(guān)聯(lián),將IT服務(wù)管理的組織、文化、流程與DevOps進(jìn)行結(jié)合。
CSMO出現(xiàn)的背景是企業(yè)IT運(yùn)維在DevOps時(shí)代需求下有了新的發(fā)展:之前的ITIL/ITSM側(cè)重于軟件應(yīng)用發(fā)布后的運(yùn)維,而DevOps要求在DevOps全生命周期都要融入運(yùn)維;之前ITIL/ITSM下的運(yùn)維團(tuán)隊(duì)經(jīng)常與開(kāi)發(fā)團(tuán)隊(duì)相隔離而獨(dú)立工作,而DevOps要求開(kāi)發(fā)團(tuán)隊(duì)也將運(yùn)維工作視為自己工作的一部分;之前的ITIL/ITSM主要為流程驅(qū)動(dòng),而DevOps則強(qiáng)烈依賴于在所有階段都嵌入自動(dòng)化的能力。IBM為CSMO提供了實(shí)踐指南,這是一套用于設(shè)計(jì)、實(shí)施以及持續(xù)改進(jìn)企業(yè)運(yùn)維管理流程的方法組合,包括各類角色分工、流程及流程定義以及考核、實(shí)現(xiàn)和支持工具等。
ChatOps是CSMO的一個(gè)特色。ChatOps將開(kāi)發(fā)工具、運(yùn)維工具和相關(guān)流程都集成到一個(gè)協(xié)同平臺(tái)上,不同團(tuán)隊(duì)可以高效、輕松地管理工作流。ChatOps按時(shí)間線保持了團(tuán)隊(duì)溝通的信息流,提供了團(tuán)隊(duì)溝通的記錄并將所有人都更新到最新的狀態(tài),以避免信息的重復(fù)。ChatOps可優(yōu)化運(yùn)維團(tuán)隊(duì)與開(kāi)發(fā)團(tuán)隊(duì)的協(xié)同,提升每種角色的工作透明度,將相關(guān)信息推送給解決問(wèn)題的工程師,而無(wú)需工程師耗費(fèi)時(shí)間和精力到處找相關(guān)信息。ChatOps還將服務(wù)管理與DevOps工具都集成到Chat協(xié)同平臺(tái)上,這樣團(tuán)隊(duì)就無(wú)需來(lái)回切換不同的場(chǎng)景和工具。ChatOps還提供了聊天機(jī)器人,可回答各類問(wèn)題以及遠(yuǎn)程執(zhí)行指令。
潘軍強(qiáng)調(diào),今天新的IBM運(yùn)維方法論,從方法、工具、流程等方面結(jié)合傳統(tǒng)運(yùn)維和混合云的要求,是與時(shí)俱進(jìn)的IT運(yùn)維服務(wù)方法論。而IBMTSS就是在該方法論的指導(dǎo)下,用工具和流程幫助客戶在混合云和AI的環(huán)境中,更好地進(jìn)行運(yùn)維和服務(wù)保障。
AIOps:加碼智能運(yùn)維
在混合云環(huán)境中,傳統(tǒng)的運(yùn)維監(jiān)控方式正在發(fā)生巨變。由于缺乏有效的系統(tǒng)洞察,運(yùn)維團(tuán)隊(duì)很難在運(yùn)維事件發(fā)生之前進(jìn)行預(yù)測(cè)或獲得告警。而采用AI技術(shù)的IT運(yùn)維,則從運(yùn)維工單、指標(biāo)、日志等資源中獲得數(shù)據(jù),再運(yùn)用深度學(xué)習(xí)等AI技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析,從而獲得對(duì)于系統(tǒng)的洞察,進(jìn)而用于運(yùn)維流程中,為運(yùn)維團(tuán)隊(duì)提供專業(yè)指導(dǎo)。
潘軍表示,AIOps即智能化運(yùn)維,這是一個(gè)旅程,橫向是從流程化、集中式的ITIL向分布式DevOps的轉(zhuǎn)變,縱向是從傳統(tǒng)運(yùn)維文化角度進(jìn)行敏捷轉(zhuǎn)型。該轉(zhuǎn)型分為四個(gè)階段:首先是標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化是實(shí)現(xiàn)運(yùn)維自動(dòng)化的前提;其次是響應(yīng),強(qiáng)調(diào)實(shí)時(shí)運(yùn)維數(shù)據(jù)分析與洞察;第三是預(yù)測(cè),即在實(shí)時(shí)數(shù)據(jù)分析的基礎(chǔ)上,實(shí)現(xiàn)動(dòng)態(tài)洞察和更新分析;第四是主動(dòng)預(yù)防,即進(jìn)一步實(shí)現(xiàn)事故預(yù)測(cè)與告警,進(jìn)行主動(dòng)式預(yù)防。

(AIOps四階段,圖片來(lái)源:IBM)
IBM提供了AIOps實(shí)踐指南,將IBM運(yùn)維團(tuán)隊(duì)運(yùn)用AI技術(shù)于運(yùn)維流程的實(shí)踐進(jìn)行了總結(jié),包括:收集運(yùn)維數(shù)據(jù),監(jiān)控應(yīng)用并收集數(shù)據(jù)以檢測(cè)性能和故障等;組織運(yùn)維數(shù)據(jù),用大數(shù)據(jù)工具和相關(guān)概念對(duì)收集的運(yùn)維數(shù)據(jù)進(jìn)行治理,將這些數(shù)據(jù)組成不同的邏輯組或數(shù)據(jù)集,以便于后續(xù)AI模型分析;采用數(shù)據(jù)模型對(duì)數(shù)據(jù)進(jìn)行分析,對(duì)運(yùn)維數(shù)據(jù)集選用合適的AI模型,包括深度學(xué)習(xí)和機(jī)器學(xué)習(xí)等,從而獲得最準(zhǔn)確的洞察及預(yù)測(cè);將AI擴(kuò)展到運(yùn)維流程中,使用協(xié)同工具或數(shù)據(jù)面板發(fā)布AI模型分析的結(jié)果等。
IBMTSS借助IBMSupportInsight、WatsonAIOps、Ansible等工具,幫助企業(yè)實(shí)現(xiàn)從被動(dòng)到主動(dòng)、從手工到自動(dòng)、從經(jīng)驗(yàn)到數(shù)據(jù)驅(qū)動(dòng)的運(yùn)維轉(zhuǎn)變,共建主動(dòng)性、預(yù)測(cè)性和深度洞察智能運(yùn)維體系。TSS也改變了以往的工作模式,以各種創(chuàng)新的方式為客戶提供更加智能的服務(wù),比如通過(guò)AR眼鏡看到用戶設(shè)備信息,進(jìn)行遠(yuǎn)程巡檢、故障診斷和修復(fù),甚至通過(guò)巡檢機(jī)器人完成工作。同時(shí),IBMTSS團(tuán)隊(duì)可以通過(guò)巡檢機(jī)器人收集到的機(jī)房環(huán)境信息,例如空調(diào)出風(fēng)量、溫度等指標(biāo),反饋給管理系統(tǒng),為客戶機(jī)房節(jié)能減排提供有力的數(shù)據(jù)支撐。
例如,IBMTSS為某金融客戶提供機(jī)房巡檢機(jī)器人方案,包括微環(huán)境管理、節(jié)能管理、日常巡檢、隨工檢查、資產(chǎn)容量管理等。不僅提升了效率,在疫情等突發(fā)事件的時(shí)候發(fā)揮了巨大的作用,也為數(shù)據(jù)中心的運(yùn)維工作提供了有力支撐。通過(guò)機(jī)器人持續(xù)的數(shù)據(jù)收集對(duì)整個(gè)數(shù)據(jù)中心的能耗、容量、利用率有了更深入的洞察,為后續(xù)節(jié)能減排、優(yōu)化基礎(chǔ)設(shè)施奠定了基礎(chǔ)。
多品牌統(tǒng)一運(yùn)維、解決“混合”難題
在企業(yè)向混合云轉(zhuǎn)型的過(guò)程中,出現(xiàn)了傳統(tǒng)IT與混合多云交雜的新環(huán)境。企業(yè)不僅需要運(yùn)維管理主機(jī)、小型機(jī)、存儲(chǔ)與網(wǎng)絡(luò)等傳統(tǒng)IT資產(chǎn),還要管理DevOps環(huán)境中出現(xiàn)的各類新興開(kāi)源軟件,此外還有日益嚴(yán)峻的安全挑戰(zhàn)和監(jiān)管要求等。為了幫助企業(yè)更好的應(yīng)對(duì)分散、復(fù)雜的多云環(huán)境,高效利用資源,高品質(zhì)地保障業(yè)務(wù)連續(xù)性,IBMTSS為企業(yè)提供了集成、全生命周期、一站式多品牌運(yùn)維服務(wù),為企業(yè)向混合云轉(zhuǎn)型“托底”。
IBM多品牌統(tǒng)一運(yùn)維服務(wù)同時(shí)支持IBM主機(jī)、Power和存儲(chǔ)設(shè)備和軟件以及非IBM第三方商業(yè)軟硬件,并對(duì)超過(guò)245種開(kāi)源軟件提供企業(yè)級(jí)支持,包括開(kāi)源數(shù)據(jù)庫(kù)、開(kāi)源中間件、應(yīng)用運(yùn)行環(huán)境、操作系統(tǒng)和各類平臺(tái)組件等。IBM對(duì)全球266家采用該服務(wù)的客戶進(jìn)行了調(diào)研,結(jié)果顯示:在三年內(nèi)IBM為這些組織平均帶來(lái)了310萬(wàn)美元的凈收益;通過(guò)簡(jiǎn)化與IBM的硬件和軟件支持合同,IT支持支出減少25%。
例如,IBMTSS為某大型銀行全球數(shù)據(jù)中心提供多品牌一體化運(yùn)維服務(wù),通過(guò)簡(jiǎn)化與統(tǒng)一各種硬件和軟件支持合同,為其減少了25%的IT維護(hù)和支持開(kāi)支;通過(guò)使用IBM多品牌一體化運(yùn)維,減少了20%與IT管理相關(guān)的任務(wù)所耗費(fèi)的時(shí)間;通過(guò)與一家供應(yīng)商整合IT支持,減少了20%用于供應(yīng)商關(guān)系管理的時(shí)間。同時(shí),這些服務(wù)也創(chuàng)造了很多非量化收益,包括延長(zhǎng)硬件的使用壽命,節(jié)省或推遲了資本支出,減少平均修復(fù)時(shí)間(MTTR),避免了大量的事故或停機(jī),提高可用性。
在開(kāi)源支持方面,作為主流開(kāi)源組織的頂級(jí)贊助商和貢獻(xiàn)者,IBM一直與開(kāi)源生態(tài)系統(tǒng)有深入的合作關(guān)系,TSS早在2020年開(kāi)始為客戶提供從咨詢治理到托底支持的全方位開(kāi)源解決方案服務(wù),其服務(wù)保障與服務(wù)質(zhì)量幾乎等同于商業(yè)軟件的服務(wù)級(jí)別。在中國(guó)市場(chǎng),2021年初,IBM進(jìn)入信通院第一批開(kāi)源供應(yīng)商名錄,7月成為信通院認(rèn)證的4家白金合作伙伴之一,兩年的時(shí)間已經(jīng)為各行各業(yè)的客戶提供了開(kāi)源服務(wù)。

(IBM支持工程師在疫情期間仍堅(jiān)持工作)
目前,IBM多品牌統(tǒng)一運(yùn)維服務(wù)覆蓋了98%的中國(guó)主要城市,在中國(guó)有約1000名具備原廠工程師認(rèn)證的IT工程師在一線為企業(yè)提供7*24小時(shí)服務(wù)。值得一提的是,在疫情期間IBM支持工程師仍保證了“7*24小時(shí)服務(wù)”的承諾。例如,上海剛剛爆發(fā)疫情苗頭的3月底,TSS支持大銀行和鐵路等重要行業(yè)的十多位工程師扛起行軍床、背上方便面,一頭扎進(jìn)客戶數(shù)據(jù)中心一線,在兩個(gè)月的時(shí)間里為上海的客戶進(jìn)行了130多次緊急維修;而在去年7月,鄭州遭遇特大暴雨,大水還沒(méi)消退,TSS一位工程師便使用沖鋒舟將客戶需要的備件及時(shí)送到現(xiàn)場(chǎng),另一位工程師則在高架橋上徒步6公里到達(dá)客戶現(xiàn)場(chǎng)……
總結(jié)而言:疫情加速了企業(yè)向云轉(zhuǎn)型的進(jìn)程,而混合云將是企業(yè)IT的新形態(tài)。基于云的數(shù)字化業(yè)務(wù)對(duì)于企業(yè)IT支持運(yùn)維服務(wù)提出了全新的挑戰(zhàn),也對(duì)IT支持運(yùn)維服務(wù)商提出了全新要求。IBMTSS在混合云服務(wù)管理與運(yùn)維方法論和AIOps智能運(yùn)維平臺(tái)的支撐下,以多品牌一體化運(yùn)維服務(wù)、開(kāi)源軟件支持服務(wù)與開(kāi)源治理咨詢服務(wù)等,為混合云的“長(zhǎng)治久安”打底,創(chuàng)造了混合云服務(wù)管理與運(yùn)維的新樣板。