歐洲原子能研究機構(gòu)(CERN)成立于1954年,是世界最大的粒子物理研究中心。一直以來,CERN憑借強大的計算能力,為遍布48個國家270個研究中心的17000余名科研人員在全球范圍內(nèi)展開合作、共同破解物質(zhì)和宇宙的種種奧秘提供著堅實的保障。
為進一步加快研究進展,CERN啟動了當今世界最大的強子對撞機LHC的建設(shè)。LHC位于日內(nèi)瓦附近瑞士和法國交界地區(qū)地下100米深處、周長約27公里的環(huán)形隧道內(nèi),其物理實驗對粒子物理基本理論的檢驗和探索新的突破,起到至關(guān)重要的作用。尤其是對宇宙起源和尋找新粒子Higgs的探索,可能發(fā)現(xiàn)超出標準模型的新物理規(guī)律,而導(dǎo)致粒子物理學的重大突破,使人類對微觀世界的認識進入一個新的階段。
LHC項目中大多數(shù)應(yīng)用程序是高度專業(yè)化的,需要非常好的持續(xù)性,這給支撐該項目的計算機集群管理帶來了新的挑戰(zhàn)。支持LHC項目的新計算機集群由200臺服務(wù)器組成,但新集群的整體利用率卻只有10%左右,負責處理LHC數(shù)據(jù)的研究中心部門主管Helge Meinard博士表示:“在啟動諸如大型強子對撞機(LHC)這樣的項目時,我們必須保證所有計算能力都得到充分的利用。”為了提高服務(wù)器利用率,CERN對服務(wù)器進行了虛擬化。新的虛擬化集群支持HyperV和Xen等多種虛擬機管理程序,這為實驗團隊帶來了更大的靈活性,可以為自己的應(yīng)用程序選用最好的平臺,但同時,多種虛擬化技術(shù)的使用給整個集群環(huán)境增添了管理的復(fù)雜性。CERN決定采用Platform ISF解決方案管理LHC集群工作負載,同時作為管理虛擬環(huán)境和物理環(huán)境的工具,以實現(xiàn)構(gòu)建經(jīng)濟高效、能夠管理任何服務(wù)器上虛擬機管理程序和操作系統(tǒng)、共享的計算基礎(chǔ)設(shè)施的目標。
“我們最終選擇Platform作為合作伙伴,幫助我們擴展和最大限度地優(yōu)化獨一無二的高性能計算(HPC)環(huán)境,為我們整個科學研究團隊發(fā)掘和探索宇宙的奧秘搭建理想的平臺。”CERN結(jié)構(gòu)基礎(chǔ)設(shè)施(Fabric Infrastructure)小組負責人Tony Cass博士說:“CERN從1997年就開始使用Platform LSF管理工作負載,Platform LSF同樣適用于LHC。特別是當需要添加云功能時,與Platform LSF來自同一廠商的Platform ISF看起來再合適不過了。”
作為一款集中管理異構(gòu)的虛擬和物理資源的云基礎(chǔ)架構(gòu)管理平臺,Platform ISF為運行在其上的各種應(yīng)用提供了快速部署、動態(tài)資源調(diào)度和彈性計算的資源管理和調(diào)度平臺。它提供的IaaS功能幫助客戶實現(xiàn)自助式按需的計算、網(wǎng)絡(luò)、存儲資源的申請和使用。更重要的是,它還能使中間件和分布式應(yīng)用軟件更加方便、快速地遷移至云平臺并具備提供PaaS(平臺即服務(wù))和SaaS(軟件即服務(wù))的能力,確保中間件和分布式應(yīng)用軟件的提供者更加專注于自身應(yīng)用邏輯,無需考慮對底層計算、存儲、網(wǎng)絡(luò)資源的調(diào)度和管理。
Platform ISF為CERN的大批科學家提供了一整套私有云計算基礎(chǔ)架構(gòu),為多個虛擬和物理平臺提供了高效的工作負載應(yīng)用管理。Platform ISF將不同平臺組合到單一動態(tài)的共享基礎(chǔ)架構(gòu)當中,在資源較少的情況下顯著地提高了平臺利用率。此外,廣大科學家還可以選擇自己的應(yīng)用環(huán)境,動態(tài)控制項目,確保自身能夠充分發(fā)揮私有云的功效,而所有這一切都是在前所未有的低成本狀態(tài)下實現(xiàn)的。
此外,Platform ISF讓CERN對集群環(huán)境擁有了更大的控制權(quán),而且通過自動處理虛擬機管理程序不但實現(xiàn)許多任務(wù)的自動化管理,簡化了管理工作,還提高了管理效率。Platform ISF可以管理資源和應(yīng)用環(huán)境,并提供讓用戶能夠根據(jù)需要來預(yù)留和使用資源的契約接口。
Platform ISF具有的獨立性讓CERN很感興趣,Cass說:“CERN的科研環(huán)境高度重視能夠順應(yīng)新發(fā)展形勢的工具,而不是讓我們被舊形勢所束縛,Platform ISF做到了。”
CERN將Platform ISF部署在一個支持LHC的集群上,而將Platform ISF Adaptive Cluster部署在由 3800臺多核服務(wù)器組成、負責進行批處理工作的HPC集群上,這讓CERN可以通過私有云計算環(huán)境,在必要時共享不同集群之間的資源。Cass說:“Platform ISF Adaptive Cluster可以與現(xiàn)有的Platform LSF網(wǎng)格工作負載管理解決方案結(jié)合起來,為我們的用戶和研究中心提供利用共享數(shù)據(jù)中心資源來管理集群所需的可擴展性和靈活性,同時符合我們對開放標準的要求。”
Platform ISF還幫助CERN減少了專用的LHC集群服務(wù)器數(shù)量并減輕管理負擔。“過去,在靜態(tài)資源環(huán)境中,利用Platform LSF可以減少管理日常應(yīng)用的工作量;而現(xiàn)在,Platform ISF通過將耗時的人工管理轉(zhuǎn)變?yōu)樽詣踊馁Y源調(diào)配和管理,使我們能更有效地管理虛擬機和物理機組成的混合環(huán)境。”Cass博士進一步解釋說:“通過提高服務(wù)器利用率,如果能從現(xiàn)有的LHC環(huán)境中減少150臺服務(wù)器(原來是200臺服務(wù)器),那么我們就可以大幅度節(jié)省電力和冷卻成本,并且能在不增加硬件預(yù)算的前提下,把服務(wù)器重新部署到批處理集群中去;如果能利用Platform ISF提供的自動配置服務(wù)器功能滿足實驗團隊提出來的工作負載要求,就將減輕我們的管理負擔。”Cass預(yù)測,使用Platform ISF后,CERN有望大幅減少重新配置批處理集群以滿足不斷變化的工作負載所需的工作量。