7月的CrowdStrike事件清楚地展示了允許軟件供應商深入訪問網(wǎng)絡基礎設施的風險,這也引發(fā)了人們對數(shù)字服務集中在少數(shù)幾家公司手中的擔憂。一篇預見性的Reddit帖子指出,CrowdStrike對于世界上許多最大企業(yè)來說是一個威脅載體,同時也是一個數(shù)據(jù)的金礦。
鑒于7月19日CrowdStrike失敗更新后引發(fā)的全球計算機停機事件,審慎的高管們正在問:“我如何防止類似的事情再次發(fā)生?”
隨著大型科技公司市場集中度的提高,類似的大規(guī)模故障完全有可能再次發(fā)生。根據(jù)Synergy Research Group的數(shù)據(jù),三大領先的云服務提供商——Amazon、Microsoft和Google——占據(jù)了全球市場的67%,其中,僅Amazon在2023年底就占據(jù)了31%的市場份額。
有兩種策略可以減輕類似軟件故障的影響:多樣化網(wǎng)絡基礎設施和模擬故障處理。在討論防御措施之前,我們先來討論一下引入CrowdStrike或其他第三方軟件供應商進入企業(yè)所帶來的風險。
CrowdStrike崩潰事件只是冰山一角
將設備訪問權限授予外部軟件或服務供應商會帶來以下風險:
• 失去對網(wǎng)絡功能的訪問(如CrowdStrike事件中所發(fā)生的那樣)
• 數(shù)據(jù)的未經(jīng)授權訪問(你的知識產(chǎn)權和客戶數(shù)據(jù)安全嗎?)
• 通過聚合數(shù)據(jù)對你的業(yè)務活動進行可視化監(jiān)控
此外,你的數(shù)據(jù)安全現(xiàn)在依賴于網(wǎng)絡安全公司或云服務提供商的安全實踐。
考慮一下“移動設備管理”或“設備監(jiān)控”工具,它們中的大多數(shù)實際上都是rootkit,可以讓第三方100%控制你公司的設備。對于任何擁有專有知識產(chǎn)權并希望保密的公司來說,這種做法似乎都不明智。
沒錯,CrowdStrike確實搞砸了,并以一種極其壯觀的方式導致數(shù)百萬臺Windows計算機癱瘓,但這只是冰山一角,更大的威脅——我們集體而方便地忽視了——是某個外部實體掌控了你的業(yè)務運營。
高級安全軟件至關重要,但你在提供安全儀表板的名義下將網(wǎng)絡的鑰匙交給了別人。
人們擔心Facebook的跟蹤,并關閉第三方Cookies以保護私人生活,但像CrowdStrike這樣的軟件可以監(jiān)視、跟蹤每一臺公司電腦,從最底層的實習生到CEO。與之相比,Cookies只是小問題。
現(xiàn)在,即使CrowdStrike本身是可靠的,他們的軟件也按預期運行,但如果有人入侵了CrowdStrike會怎樣?理論上,攻擊者可能會獲得航空公司網(wǎng)絡、銀行網(wǎng)絡以及全球各大企業(yè)的訪問權限,這讓我感到擔憂。如果你給予某個供應商如此廣泛的網(wǎng)絡訪問權限,這種風險必須被評估。
那么,作為CIO或CISO,你如何減少這些大型科技公司發(fā)生另一場大規(guī)模故障的風險呢?
為失敗做好準備:規(guī)劃、演練、預期
減少大規(guī)模系統(tǒng)故障的關鍵在于為災難性事件做好規(guī)劃,并演練應對措施。將應對失敗的過程納入日常業(yè)務實踐中。當失敗是出乎意料且罕見時,處理它的流程往往未經(jīng)測試,甚至可能導致使情況惡化的行動。
建立一個能夠適應和應對故障的網(wǎng)絡和團隊。記得保險公司以前運行自己的數(shù)據(jù)中心,并每年進行兩次災難恢復測試嗎?如今很少有公司在應急計劃上做到如此徹底,但一些公司,如Netflix,通過混沌工程樹立了良好的榜樣。Netflix的Chaos Monkey開源軟件通過引入故意的系統(tǒng)中斷,模擬現(xiàn)實世界中的故障,以測試系統(tǒng)的彈性。
要像Netflix,而不是像Delta Airlines那樣:在CrowdStrike更新后,Delta的關鍵機組人員跟蹤系統(tǒng)大部分時間都處于離線狀態(tài),幾乎持續(xù)了一周。
多樣化你的供應商和系統(tǒng)
減少大規(guī)模故障的第二個策略是避免因數(shù)字技術供應商的集中化而造成的軟件單一化。這雖然更復雜,但值得嘗試。
一些公司有一項政策,即從三到四個不同的供應商那里購買核心網(wǎng)絡設備。雖然這使得日常管理變得稍微困難一些,但他們有信心,即使一個供應商出現(xiàn)問題,他們的整個網(wǎng)絡也不會癱瘓。無論是在技術領域還是生物學中,單一文化都極易受到能夠摧毀整個系統(tǒng)的流行病的攻擊。
在CrowdStrike的情境下,如果公司網(wǎng)絡是Windows、Linux和其他操作系統(tǒng)的混合體,那么損害就不會如此廣泛。
對于“多樣化系統(tǒng)”這一觀點,2022年7月加拿大的Rogers Communications網(wǎng)絡中斷就是一個例子,這家加拿大電信提供商經(jīng)歷了一次重大服務中斷,導致其有線互聯(lián)網(wǎng)和移動網(wǎng)絡服務停止,影響了超過1200萬用戶,持續(xù)時間長達26小時。
恢復工作受到阻礙,因為Rogers的員工通常是使用Rogers的蜂窩和互聯(lián)網(wǎng)系統(tǒng)的用戶,而這些系統(tǒng)當時崩潰了。那些不在辦公室的員工無法訪問互聯(lián)網(wǎng),甚至無法使用他們的手機。一份第三方審查報告指出,Rogers的員工在中斷發(fā)生14小時后才得以訪問記錄故障根本原因的關鍵錯誤日志。
結論
第三方軟件供應商和云服務已經(jīng)成為IT領域不可或缺的一部分,但如果我們想要將業(yè)務風險降到最低,就必須抵制將所有雞蛋放在一個籃子里的誘惑。
從CrowdStrike事件中得到的教訓是:多樣化你的供應商和系統(tǒng),并重新審視你的應急計劃。