有許多趨勢和技術(shù)影響著全球范圍內(nèi)的數(shù)據(jù)中心,這些問題包括實現(xiàn)可持續(xù)性的壓力、不斷增加的機架密度、應(yīng)對具有挑戰(zhàn)性的AI工作負載、對更多數(shù)據(jù)中心的需求以及實施高級冷卻。Omdia的云和數(shù)據(jù)中心研究總監(jiān)Vladimir Galabov在AFCOM最近舉辦的題為Omdia研究總監(jiān)的Leap Year Insight的網(wǎng)絡(luò)研討會上概述了這些主題。
數(shù)據(jù)中心:向善的力量
Galabov首先解釋了數(shù)據(jù)中心是一股“向善的力量”,但我們需要更好地讓世界知道這一點。數(shù)據(jù)中心的高耗電量和高耗水量受到了如此多的關(guān)注,雖然可持續(xù)發(fā)展倡議可以而且應(yīng)該被優(yōu)先考慮,但這個故事還有另一個通常被忽視的方面:該行業(yè)對全球能源使用產(chǎn)生了積極影響。
Galabov說:“我們沒有做足夠的工作來捕捉和促進科技行業(yè)在降低整體經(jīng)濟的能源密集度方面所帶來的能效提升,例如,造紙業(yè)是能源密集度最高的行業(yè)之一,技術(shù)通過減少對紙張的依賴,肯定產(chǎn)生了巨大的影響。”
他引用了Lawrence Berkeley Laboratory的一項研究,該研究表明,更多地使用技術(shù)可以減少三分之一的碳排放增長。東京大學(xué)的另一項研究發(fā)現(xiàn),日本可以通過信息技術(shù)減少40%或更多的二氧化碳排放量。同樣,美國能效經(jīng)濟委員會估計,IT部門每消耗一千瓦的能源,其他部門就會節(jié)省10千瓦。
Galabov說:“看看20世紀70年代美國的能源使用情況,并預(yù)測未來同樣的能源強度水平,如果沒有數(shù)據(jù)中心,我們今天的能源消耗量將顯著增加。”
AI如何影響能源消耗
GenAI的出現(xiàn)意味著將會有越來越多的問題被問到數(shù)據(jù)中心行業(yè),從能耗的角度來看,我們的責(zé)任是什么,但Galabov說,需要理解的是,2008至2020年間,盡管全球計算和互聯(lián)網(wǎng)使用量激增,但數(shù)據(jù)中心在全球用電量中所占份額仍保持在1%左右,這些努力強調(diào)了以用電效率(PUE)為核心的效率方面取得的巨大進步,例如:隨著終端用戶轉(zhuǎn)向數(shù)字銀行,美國已有13000多家銀行分行關(guān)閉。
然而,AI的增長和GPU的采用即將改變能源使用方程式,NVIDIA對2024年的預(yù)測顯示,與之前的數(shù)字相比,數(shù)據(jù)中心GPU的出貨量增加了一倍以上,這將大大增加電力需求。
Galabov說:“隨著越來越多的電力用于AI,數(shù)據(jù)中心在全球電力中的份額在幾年內(nèi)將上升到2%左右。”
數(shù)據(jù)中心建設(shè)趨勢
除了電力消耗增加外,Omdia預(yù)計美國、歐盟和中國等成熟地區(qū)的數(shù)據(jù)中心建設(shè)步伐將放緩,因為已經(jīng)存在充足的容量,然而,在新興地區(qū),這一步伐將會加快。Galabov說,非洲、拉丁美洲、中東、印度、泰國和越南都將看到更多的數(shù)據(jù)中心,因此,美國建筑業(yè)占全球總建筑量的比例從2017年的49%下降到今天的35%。
Galabov說:“埃塞俄比亞和納米比亞計劃每年將數(shù)據(jù)中心的容量翻一番,盡管他們的起點相對較低,另一個需要理解的因素是,正在進行的數(shù)據(jù)主權(quán)倡議將影響數(shù)據(jù)的存儲位置和最需要新數(shù)據(jù)中心的位置。”
除了更多的數(shù)據(jù)中心外,未來幾年,全球的機架密度也將不斷增加。根據(jù)Omdia的數(shù)據(jù),從2021年的每個機架7千瓦,我們已經(jīng)達到了平均機架密度12千瓦,預(yù)計到2030年,這種上升軌道將繼續(xù)下去,平均功率可能達到20千瓦。
效率和可持續(xù)性
隨著未來幾年電力使用量和密度預(yù)測的激增,該行業(yè)必須在效率和可持續(xù)性方面加倍努力。Galabov說,我們即將經(jīng)歷新一輪數(shù)據(jù)中心優(yōu)化浪潮,重點是減少IT足跡-整合設(shè)備、減少機械組件、改進電力轉(zhuǎn)換,以及數(shù)據(jù)中心采用AI支持的DCIM和管理系統(tǒng)。
Galabov說:“DCIM有機會成為一個集中化的自動化工具,可以跨數(shù)據(jù)中心運行,一直到邊緣。通過用AI豐富DCIM,我們可以最大限度地減少員工短缺的影響,并發(fā)展出進一步提高效率和可持續(xù)性的方法,無論是在IT層面還是在物理基礎(chǔ)設(shè)施層面。”
根據(jù)AFCOM的2024年數(shù)據(jù)中心狀況調(diào)查,超過一半的數(shù)據(jù)中心計劃實施太陽能,超過25%的數(shù)據(jù)中心正在添加風(fēng)能,其他人則在考慮核能、氫氣、地?zé)岷碗姵貎δ芟到y(tǒng)(BESS),這可以通過擺脫對公用事業(yè)的依賴來降低整體能源成本。
數(shù)據(jù)中心成了“AI工廠”
AI正在生活的方方面面施加影響——包括數(shù)據(jù)中心。在美國,每五個人中就有一個使用過GenAI,許多數(shù)據(jù)中心正處于制定長期AI戰(zhàn)略的規(guī)劃階段。
Galabov說:“第一步是將數(shù)據(jù)中心從計算和存儲工廠轉(zhuǎn)變?yōu)锳I工廠。”
這需要適應(yīng)更高的密度,并獲得進一步的效率,如改善氣流管理和遏制。他補充說,隨著低成本選擇的出現(xiàn),預(yù)計液體冷卻也將迅速發(fā)展,例如,一家名為KeenCool的公司已經(jīng)開發(fā)出一種單相液體,其售價是目前其他公司售價的6%。
Galabov說:“隨著液體冷卻變得更加大眾化,我們將在直接到芯片和浸入式冷卻市場看到更多的競爭,沉浸式冷卻的價格應(yīng)該會大幅下降。”
此外,預(yù)計與交直流功率轉(zhuǎn)換相關(guān)的變化,例如,NVIDIA報告稱,在其DGX服務(wù)器的這些轉(zhuǎn)換過程中,大約有10%的電力損失,正在開發(fā)的系統(tǒng)需要在數(shù)據(jù)中心內(nèi)從交流到直流的轉(zhuǎn)換更少,一些數(shù)據(jù)中心也在尋求通過整合提高效率,例如,一家工廠與戴爾合作,將其IT占用空間減少了90%,能源賬單減少了75%。
Galabov說:“未來的數(shù)據(jù)中心最終可能會擁有更少、密度更高的機架,我們一直在通過更高效的冷卻和電力基礎(chǔ)設(shè)施成功降低PUE,但仍有減少電力轉(zhuǎn)換的空間,以解決不必要的電力損失,同時提高IT設(shè)備的利用率。”
舊數(shù)據(jù)中心與新數(shù)據(jù)中心
Galabov認為,傳統(tǒng)數(shù)據(jù)中心應(yīng)該被視為一個重大的成功故事。通過虛擬化、集裝化、軟件定義的架構(gòu)、云和IT整合,他們實現(xiàn)了效率和性能的大幅提升。現(xiàn)在,我們正在通過應(yīng)用程序優(yōu)化以及處理能力和設(shè)計的改進等領(lǐng)域進入數(shù)據(jù)中心利用的新時代,谷歌就是一個很好的例子:在媒體處理方面,它部署了高度優(yōu)化的服務(wù)器,現(xiàn)在他們用一臺包含低功耗ASIC的新服務(wù)器取代了五臺運行YouTube的舊服務(wù)器。
Galabov說:“新的數(shù)據(jù)中心將為AI優(yōu)化其物理基礎(chǔ)設(shè)施,液體冷卻已經(jīng)針對AI進行了優(yōu)化,我們很快就會看到集中式的、AI驅(qū)動的能源管理系統(tǒng)。”