AI和HPC的電力和冷卻需求需要專業知識和能力,運營和工程也需要具備專業知識。
正如數據中心發現自己需要處理電力、空間和可持續發展等新問題一樣,最新的尖端技術、AI和機器學習給所有這些問題帶來了挑戰。
這并不是說必須面對的這些問題是新的,而是AI的采用正在以前所未有的速度發生。在一年左右的時間內,托管提供商將需要進行調整,以應對企業對高密度數據中心的新的、更大的需求。
那么,這實際上意味著什么呢?似乎不太可能有一大批客戶投資數百萬美元購買AI專用硬件,敲響托管提供商的大門,那么數據中心需要提供什么呢?
電力和冷卻優先
在基礎設施方面,電力和冷卻的可用性將是客戶首先尋求的。但是,提供商是否需要能夠支持整個數據大廳的NVIDIAH100規模的GPU,或者更有可能的是,具有4或8個GPU服務器和適當存儲的單個機架就是所需的全部?
當然,對于相對簡單的單一AI服務器部署,單機架解決方案可能需要支持50kW或更多。正如我們最近指出的,處理這種工作負載的技術已經在許多設施中到位,但它只是將AI部署到主機托管中的一個起點。
對于提供商和客戶來說,現在和未來的中期解決方案是AI即服務解決方案。
換句話說,托管客戶大規模AI部署的市場正開始推動需求,因為似乎每個人都有興趣涉足其中。這意味著,擁有各自云的微軟、谷歌、亞馬遜甚至甲骨文都將看到客戶希望使用其按需配置來測試、評估并潛在地部署云AI服務。
誰將推動這一需求?
但進入提供AI云服務的不僅僅是頂級參與者。在最近的Computex2023大會上,英偉達特別強調了他們的云合作伙伴,除了四大之外。
Cirrascale就是一個這樣的例子,他們最初是作為HPC按需計算的提供商而成名的。他們現在提供他們的AI創新云,該云利用支持基礎設施為客戶提供評估AI/ML系統的機會。他們對AI托管的承諾反映在客戶可供選擇的方面。
客戶不僅可以選擇使用前幾代和當前幾代NVIDIAAI硬件,該公司還可以托管他們的GraphCloud,利用Graphcore的BOWIPU;Cerebras的AIModelStudio在他們托管的Cerabras云上運行;以及SambaNova的數據流即服務和基礎模型。
這是四種領先的加速AI/ML技術,它們不是Google或AWS,這兩家公司除了自己的內部設計外,還提供NvidaGPU。Cirrascale也可能是這些相互競爭的技術的唯一來源,在某些情況下,還提供互補技術,甚至在他們的云中提供不同技術的公開定價模型。
LambdaLabs采取了一種略有不同的方法,他們提供五種不同級別的基于Nvidia的托管服務,以及為你的ML硬件和軟件堆棧設計的全面托管服務。它們提供專為GPU計算工作負載設計的高密度電源和冷卻。此外,他們還可以在你的數據中心或其數據中心內部提供其設計的GPU群集。
NVIDIA強調的其他供應商包括Coreweave、Paperspace和Vultr。所有這些提供商的共同點是,它們都是專門的云服務提供商,擁有多個數據中心,并專注于支持AI/ML工作負載。有些公司的目光超越了他們的AI重點,提供了更標準化的云數據中心選項,例如全方位的存儲、托管數據庫、Kubernetes和裸機部署。
這讓我們對主機代管的未來有了一些了解。隨著新設施的建設和現有空間的翻新,為高密度計算開發必要的支持基礎設施,無論是提供帶有被動后門冷卻的機架,還是配備用于部署液體冷卻IT工作負載設備的完整數據大廳,或者介于兩者之間的任何東西,都需要引起人們的注意。
它將成為行業的驅動力
雖然并不是每個數據中心都需要配備設備來運行最密集的AI工作負載,但當前的趨勢是,僅寶貴的數據中心位置的空間就非常寶貴,這意味著構建更高密度的機架解決方案是通向未來的唯一途徑。
這并不意味著每個數據中心都需要按照Colovore設施的方式來建設,Colovore設施提供每個機架35千瓦的標準密度,并談到了構建超過200kW機架的能力(這個數字似乎過高,除非你看看AI/ML工作負載專用硬件的電力需求)。但這確實意味著,尤其是在空間有限的地方,數據中心將需要標準化,以支持顯著更高的電力和冷卻需求。
對現有設施來說,幸運的是,冷卻技術的進步并不需要對現有的冷卻基礎設施進行大規模的拆卸和更換。有足夠廣泛的冷卻技術可以實現經濟高效的按需升級,新的機架設計、被動和液體冷卻技術以及從機架擴展到整個數據中心的解決方案近在咫尺。
作為這些技術的一個極好的例子,在2023年8月的第一周,DigitalRealty宣布其在28個市場的代管設施將開始支持高達70kW的機架密度。該公司正在使用所謂的空氣輔助液體冷卻技術來實現這一點,該技術通過在現有的代管設施中引入液體冷卻后門熱交換器來實現。
對高密度托管的支持不是在未來,而是現在。找到可伸縮性良好的解決方案將是許多提供商的目標。隨著客戶開始了解高性能計算和AI解決方案將為他們的業務帶來的價值,推動這些變化的業務正在迅速增長。