在剛剛過去的2021年,全球發(fā)生的科技變革有:
中國建成全球最大5G網(wǎng)絡(luò),5G基站達(dá)70萬個(gè),占全球比重近七成,連接超過1.8億個(gè)終端。
MIT(麻省理工學(xué)院)與合作團(tuán)隊(duì)僅用19個(gè)類腦神經(jīng)元就實(shí)現(xiàn)了控制自動(dòng)駕駛汽車,而常規(guī)的深度神經(jīng)網(wǎng)絡(luò)需要數(shù)百萬個(gè)神經(jīng)元。
中國“祝融”號和美國“毅力”號火星車分別在火星成功著陸,它們將尋找火星上可能存在過的生命跡象。
2020年全球電動(dòng)汽車銷量較2019年上漲39%,達(dá)到310萬輛。蘋果、百度、小米等互聯(lián)網(wǎng)科技公司紛紛加入造車新勢力,車輛自動(dòng)駕駛由單車智能邁向車路協(xié)同。
迄今為止,SpaceX已為Starlink發(fā)射了1000多顆衛(wèi)星,預(yù)計(jì)到2021年年底,Starlink的服務(wù)將會覆蓋全球大多數(shù)客戶,并有望在2022年完全覆蓋全球。
上面這些事件只是近期大大小小科技事件中很小一部分,而它們中絕大多數(shù)都涉及大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等新興技術(shù)。這些新技術(shù)通過無數(shù)軟硬件實(shí)現(xiàn)萬物互聯(lián),背后離不開智能運(yùn)維的輔助。
智能運(yùn)維顧名思義是智能+運(yùn)維。智能運(yùn)維的概念是全球知名的IT研究與顧問咨詢公司GART-ner在2016年提出的。當(dāng)初提出時(shí)的英文全稱為AlgorithmicITOperations,意指基于算法的IT運(yùn)維。隨著人工智能技術(shù)的發(fā)展,近兩年該英文全稱逐漸演化為ArtificialIntelligenceforIToperations,突出了人工智能算法在IT運(yùn)維中的應(yīng)用,現(xiàn)在,這兩種英文全稱都能在不同文檔中見到,同時(shí)并存。
1
智能運(yùn)維發(fā)展的三個(gè)階段
在綜合各方觀點(diǎn)的基礎(chǔ)上,筆者認(rèn)為智能運(yùn)維的發(fā)展分3個(gè)大階段6個(gè)小階段。分別是人工運(yùn)維、自動(dòng)化運(yùn)維、智能運(yùn)維3大階段。其智能等級參考TMForum自動(dòng)駕駛網(wǎng)絡(luò)從L0-L5逐級遞增,如圖1所示。

圖1.運(yùn)維發(fā)展各階段示意圖(以電信運(yùn)營商為例)
1.人工運(yùn)維階段
該階段分L0手工操作與維護(hù)、L1輔助運(yùn)維兩個(gè)小階段。該階段完全或大部分依靠運(yùn)維專家的經(jīng)驗(yàn)規(guī)則進(jìn)行故障定位、根因分析和配置下發(fā)等管理任務(wù)的制定和執(zhí)行。進(jìn)入輔助運(yùn)維的階段,通過對重復(fù)性典型事件預(yù)先在系統(tǒng)中配置觸發(fā)和調(diào)度策略,達(dá)到提高運(yùn)維效率和減少人力成本的作用。
2.自動(dòng)化運(yùn)維階段
該階段分L2部分自治、L3條件自治兩個(gè)小階段。在L2部分自治小階段,業(yè)內(nèi)提出了ITIL(InformationTechnologyInfrastructureLibrary)、Devops等理念,強(qiáng)調(diào)流程管理質(zhì)量和打破開發(fā)、運(yùn)維的邊界。在這個(gè)階段業(yè)內(nèi)逐漸達(dá)成IT研發(fā)和運(yùn)維一體化的共識,但仍未規(guī)模化使用Devops工具,主要依靠在系統(tǒng)中定制編寫自動(dòng)化腳本,實(shí)現(xiàn)簡單數(shù)據(jù)分析、可視化、參數(shù)配置等初始功能,類似早期BI(商業(yè)智能)系統(tǒng)。到L3條件自治小階段,企業(yè)已經(jīng)認(rèn)可自動(dòng)化運(yùn)維的價(jià)值,開始停止自己開發(fā)腳本,轉(zhuǎn)而使用市場上開源和付費(fèi)的Devops工具。從OpenStack時(shí)代,再到現(xiàn)在的容器時(shí)代,借用工具出現(xiàn)了很多自動(dòng)化運(yùn)維的高級模式,如網(wǎng)絡(luò)可用性工程SRE(SiteReliabilityEngi-neer)、聊天機(jī)器人ChatOps等。前者是在保證用戶滿意度的前提下,平衡系統(tǒng)功能、服務(wù)及性能多方因素,是涵蓋Devops運(yùn)維思想、組織架構(gòu)和具體實(shí)踐的完整體系?后者通過插件或腳本實(shí)時(shí)執(zhí)行團(tuán)隊(duì)成員在會話中輸入的每一行命令,將過去成員在各工具輸入的命令前端化、透明化,以進(jìn)一步提升自動(dòng)化程度。
3.智能運(yùn)維階段
該階段分L4高度自治(又稱智能運(yùn)維前期階段)和L5完全自治(即無人運(yùn)維階段)兩個(gè)階段。當(dāng)在某個(gè)領(lǐng)域自動(dòng)化程度達(dá)到一定極限時(shí),必然會被人們個(gè)性化需求推動(dòng)著往智能化方向發(fā)展。
L3和L4兩個(gè)階段從功能定義上來看,兩者必定會在長期共存的狀態(tài)下進(jìn)一步演化,預(yù)估會共存10-15年,即在此期間內(nèi)自動(dòng)化和智能化程度均會逐漸提高。在智能運(yùn)維早期,AI從單點(diǎn)應(yīng)用著手,如KPI單指標(biāo)的異常檢測和趨勢預(yù)測,逐步實(shí)現(xiàn)在單點(diǎn)應(yīng)用上的自主發(fā)現(xiàn)問題、診斷問題、解決問題和性能優(yōu)化。并在各垂直領(lǐng)域中,將專家經(jīng)驗(yàn)積累成知識庫,形成可重復(fù)利用的結(jié)構(gòu)化知識點(diǎn)。
在各單點(diǎn)應(yīng)用逐漸智能化的前提下,將底層各維度數(shù)據(jù)打通,建立中間通用和專用能力層,靈活應(yīng)用于上層服務(wù)。在每個(gè)應(yīng)用中都能實(shí)現(xiàn)從數(shù)據(jù)自主采集、自主預(yù)處理到自優(yōu)化,模型上實(shí)現(xiàn)自主選擇、調(diào)參、優(yōu)化及部署。人們的需求將通過語音、姿態(tài)、神情等特征進(jìn)行控制和調(diào)度,系統(tǒng)也會自主發(fā)現(xiàn)、診斷和優(yōu)化問題。
在時(shí)間維度上,由于各行業(yè)自動(dòng)化和智能化發(fā)展速度參差不齊,即使自動(dòng)化運(yùn)維和Devops概念已提出多年,但自動(dòng)化運(yùn)維工具在企業(yè)中的使用依然普及率不高,預(yù)計(jì)到2030年超過50%企業(yè)會普及使用Devops工具。同理,即使從2016年開始,已有企業(yè)開始嘗試在單點(diǎn)應(yīng)用上借用AI技術(shù),但要大多數(shù)企業(yè)能達(dá)到高度自治的水平,依然至少需要20-30年時(shí)間的探索和發(fā)展。而要實(shí)現(xiàn)無人運(yùn)維需要研發(fā)和搭建以算力網(wǎng)絡(luò)、數(shù)字孿生、千腦感知網(wǎng)絡(luò)、邊緣智能等技術(shù)為基礎(chǔ)的“運(yùn)維大腦”,在高度自治的智能運(yùn)維階段基礎(chǔ)上,至少還需要20-40年時(shí)間。
隨著人工智能技術(shù)的不斷深入,運(yùn)維管理中,人的角色越來越主動(dòng),對數(shù)據(jù)和工具的掌控力越來越靈活。運(yùn)維人員收集原始數(shù)據(jù)后,經(jīng)過數(shù)字孿生和可視化后,再進(jìn)行打標(biāo)、模型預(yù)訓(xùn)練、結(jié)構(gòu)化知識的提取,最終將專家的經(jīng)驗(yàn)和數(shù)據(jù)衍生為應(yīng)用知識,進(jìn)而實(shí)現(xiàn)工具的自動(dòng)化和智能化升級,如圖2所示。

圖2.不同運(yùn)維階段中人、數(shù)據(jù)、工具
3種角色功能和關(guān)系演化圖
2
實(shí)現(xiàn)智能運(yùn)維的必要條件
無論是從已經(jīng)進(jìn)入AIOps階段的企業(yè)技術(shù)架構(gòu)圖(如圖3所示)中,還是從Gartner的定義中,都可以清晰地看出:數(shù)據(jù)是智能運(yùn)維的基礎(chǔ)。準(zhǔn)確地說,具備數(shù)據(jù)能力是一家企業(yè)進(jìn)入智能運(yùn)維的必要條件。
根據(jù)Gartner的定義,AIOps產(chǎn)品或平臺主要包括以下5類技術(shù)要素。
•數(shù)據(jù)源:來自各IT基礎(chǔ)設(shè)施的底層記錄數(shù)據(jù)。
•大數(shù)據(jù)平臺:用于處理、分析靜態(tài)和動(dòng)態(tài)實(shí)時(shí)數(shù)據(jù)。
•計(jì)算與分析:數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化等清洗工作。
•算法:用于計(jì)算和分析,以產(chǎn)生IT運(yùn)維場景所需的結(jié)果。
•機(jī)器學(xué)習(xí):包括無監(jiān)督、有監(jiān)督和半監(jiān)督學(xué)習(xí)。
數(shù)據(jù)是企業(yè)的核心資產(chǎn),隨著數(shù)據(jù)量、數(shù)據(jù)維度的爆發(fā)式增長,現(xiàn)有的監(jiān)測分析工具在處理這類數(shù)據(jù)時(shí)壓力很大,且現(xiàn)有的BI或數(shù)據(jù)分析工具只能滿足簡單的數(shù)據(jù)分析和可視化功能,如Tableau其無法自動(dòng)化地在企業(yè)跨越多種數(shù)據(jù)類型采集、洞察數(shù)據(jù),進(jìn)而給出決策。
目前所有的AIOps平臺需能夠提取靜態(tài)數(shù)據(jù)(歷史數(shù)據(jù))和動(dòng)態(tài)數(shù)據(jù)(實(shí)時(shí)、流式傳輸數(shù)據(jù))。這些平臺允許事件數(shù)據(jù)、用戶數(shù)據(jù)、日志數(shù)據(jù)以及圖形和文檔數(shù)據(jù)的提取、索引和存儲。
數(shù)據(jù)能力,具體包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)4項(xiàng)核心能力,即以數(shù)據(jù)中臺/大數(shù)據(jù)平臺/數(shù)據(jù)湖等形式存在的數(shù)據(jù)底座,至于這幾種數(shù)據(jù)底座的名稱之間的細(xì)微差別,讀者可暫時(shí)理解為同一事物。

圖3.某企業(yè)AIOps技術(shù)架構(gòu)圖
每天數(shù)據(jù)量在1TB以上、底層平臺超過5個(gè)以上的企業(yè),建立一個(gè)可用的數(shù)據(jù)底座至少需要3年時(shí)間。而且這3年中需要一邊建設(shè)數(shù)據(jù)底座一邊將其與運(yùn)維業(yè)務(wù)緊密結(jié)合,在試錯(cuò)中建設(shè)。構(gòu)建統(tǒng)一監(jiān)控平臺,實(shí)現(xiàn)IT資源的統(tǒng)一管控。利用大數(shù)據(jù)的手段,采集、分析基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、日志等IT監(jiān)控?cái)?shù)據(jù),通過海量IT數(shù)據(jù)的實(shí)時(shí)處理分析,消除數(shù)據(jù)孤島,實(shí)現(xiàn)統(tǒng)一的告警,提升運(yùn)維管理效率。
由于采集的數(shù)據(jù)集依然是按照業(yè)務(wù)邏輯從各平臺取出后按表存儲的,與后期各類運(yùn)維場景使用的數(shù)據(jù)結(jié)構(gòu)相差甚遠(yuǎn),因此,需要在數(shù)據(jù)底座上針對每種運(yùn)維場景(當(dāng)然場景的數(shù)量是慢慢積累的),建立企業(yè)自身運(yùn)維的數(shù)據(jù)標(biāo)準(zhǔn),并通過自動(dòng)化程序和配置采集程序來采集標(biāo)準(zhǔn)數(shù)據(jù)。在數(shù)據(jù)底座上建立一個(gè)個(gè)標(biāo)準(zhǔn)化的數(shù)據(jù)模型,每種運(yùn)維場景需要的數(shù)據(jù)可以是一個(gè)數(shù)據(jù)模型中的數(shù)據(jù),也可以是多個(gè)數(shù)據(jù)模型組合的數(shù)據(jù)?這種數(shù)據(jù)模型后期將在無人運(yùn)維階段,通過數(shù)據(jù)孿生技術(shù)從大數(shù)據(jù)平臺中自動(dòng)生成。數(shù)據(jù)將通過統(tǒng)一接口服務(wù)于智能運(yùn)維。
3
智能運(yùn)維未來發(fā)展趨勢
智能運(yùn)維最終必然會進(jìn)化為無人運(yùn)維,類似汽車、飛機(jī)的無人駕駛,只有在人為需求變更條件下主動(dòng)干預(yù)才會影響機(jī)器的正常決策。要想實(shí)現(xiàn)無人運(yùn)維,背后一定需要類似人腦的“運(yùn)維大腦”的實(shí)時(shí)支撐。
從圖4所示的基于無人運(yùn)維技術(shù)體系架構(gòu)來看,首先需要解決數(shù)據(jù)來源安全、分布式算力整合調(diào)度、人機(jī)智能融合、智能免疫系統(tǒng)、信任體系價(jià)值網(wǎng)絡(luò)和腦機(jī)操作接口等重大難題,進(jìn)而實(shí)現(xiàn)主動(dòng)任務(wù)求解、自適應(yīng)強(qiáng)化學(xué)習(xí)、虛擬場景重建、認(rèn)知整合、數(shù)據(jù)應(yīng)用閉環(huán)統(tǒng)一和價(jià)值交互模式。

圖4.基于無人運(yùn)維技術(shù)體系架構(gòu)
要解決上述難題,實(shí)現(xiàn)“運(yùn)維大腦”,提升其知識泛化能力,很可能是以區(qū)塊鏈技術(shù)建立分布式可信價(jià)值網(wǎng)絡(luò)生態(tài),加上聯(lián)邦學(xué)習(xí),實(shí)現(xiàn)從數(shù)據(jù)提取、算法選擇、算力和存儲資源的使用,到數(shù)據(jù)在使用方的分析應(yīng)用和優(yōu)化,在每一次反饋中不斷積累價(jià)值,形成知識。基于區(qū)塊鏈技術(shù)運(yùn)維大腦數(shù)據(jù)計(jì)算流程示意圖如圖5所示。

圖5.基于區(qū)塊鏈技術(shù)運(yùn)維大腦數(shù)據(jù)計(jì)算流程示意圖
要實(shí)現(xiàn)上述目的,在可預(yù)見的未來至少需要以下核心技術(shù)
•數(shù)據(jù)聚合和價(jià)值交換:數(shù)據(jù)多方計(jì)算與隱私保護(hù)。
•數(shù)據(jù)的關(guān)聯(lián)與重構(gòu):數(shù)字孿生與注意力機(jī)制。
•千腦感知網(wǎng)絡(luò):算力網(wǎng)絡(luò)、邊緣智能、分布式?jīng)Q策。
•認(rèn)知整合:知識圖譜、基于場景的模仿學(xué)習(xí)。
•面向任務(wù)的自動(dòng)機(jī)器學(xué)習(xí)(Auto-ML):自動(dòng)超參優(yōu)化編碼學(xué)習(xí)、大規(guī)模圖卷積學(xué)習(xí)。
•認(rèn)知智能混合技術(shù):基于自動(dòng)特征工程的認(rèn)知特征提取、基于深度學(xué)習(xí)的視覺問答VQA(VisualQuestionAnswering)技術(shù)。
•基于強(qiáng)化學(xué)習(xí)的決策智能:基于圖的決策智能推理。
•數(shù)字化場景重建:基于GAN的視頻壓縮和重建。
•人機(jī)協(xié)同與腦機(jī)接口。
•安全免疫機(jī)制。
•多方協(xié)同智能:區(qū)塊鏈價(jià)值網(wǎng)絡(luò)。
實(shí)現(xiàn)“運(yùn)維大腦”涉及的領(lǐng)域和基礎(chǔ)技術(shù)如下。
•大數(shù)據(jù)平臺。
•AI賦能平臺。
•區(qū)塊鏈數(shù)據(jù)多方計(jì)算。
•數(shù)字孿生技術(shù)。
•容器云平臺。
•圖數(shù)據(jù)庫引擎。
•大規(guī)模圖關(guān)聯(lián)模型。
•算力網(wǎng)絡(luò)。
•混合現(xiàn)實(shí)技術(shù)。
•自動(dòng)機(jī)器學(xué)習(xí)。
•知識圖譜。
•價(jià)值網(wǎng)絡(luò)。
•自然語言處理。