著手行動之前,先考慮到一切出問題的可能性,同時做好應急預案,借此機會更新陳舊部分,并務必為全部組件配備標簽
在一場龐大的數據中心物理遷移工作終告成功之后,我一邊打量著自己傷痕累累的雙手,一邊打算喝兩杯以示慶祝,并仔細反思一下整個流程。雖然我認為工作“成功”了,但事實上數據中心遷移本身就不存在失敗這一概念:如果某些地方出了問題,我們其實也沒什么補救措施,只能繼續埋頭工作,直到一切恢復正常運轉便了。
但真正堪稱成功的數據中心遷移計劃絕不能依靠運氣。無論數據中心重新安置還是新數據中心的從頭構建,都必須在幾個月甚至幾年之前就準備好一份完備的實施方案。
遷移數據中心的方式多種多樣。如果預算與員工技能水平允許的話,最簡單的方法無疑是在新位置建立一個全新的數據中心,并將新舊設施用高帶寬線路連接起來;最后,利用虛擬化工具將所有虛擬機從舊有位置遷移到新地點——利用實時遷移。
當然這種假設的基礎是我們要擁有一套完全虛擬化的基礎設施,同時預算也要非常充足才行,因為我們等于是在將一切信息直接復制到新位置處。雖然投入巨大,但這種辦法能夠在完全不影響舊有設施運轉的前提下帶給我們由新服務器、存儲設備以及核心網絡構成的全新運算環境。另外,時間與日程安排方面的要求也會相對比較寬松,畢竟不會影響到原有的正常服務嘛。不過對于大多數機構而言這套方案最令人難以接受的就是高昂的預算。
接下來要聊的是一套混合型方案,也就是在遷移工作真正開展之前,先在新數據中心處構建部分設施,如機架及核心網絡等。當遷移工作付諸實施時,舊數據中心被直接關閉,而服務器及存儲設備等則以物理方式轉移到新場地處。重裝機架、重接線纜,接下來服務項目就能正常上線運行了。
這種方案比起直接復制在成本上來說要低得多,但會不可避免地造成至少一天的停機時間,數據與服務也有丟失的危險。整個執行流程同樣處于嚴密監控之下,由于關鍵性服務與應用程序在這一階段無法運作,而一旦存儲陣列由于某些故障而無法及時恢復正常,那么停機時間就會被延長,由此造成的損失也可能無法估量。
接下來要說的是一套類似于“廚房換水槽”的方案,即在新場地處只安裝供電與冷卻設備,而其它一切器材都從原有設施處遷移:機架、服務器、網絡、存儲等等。這種方案成本最低,但整個遷移過程也最艱難而漫長。
大多數企業在重新安置辦公場所或者數據中心時都會采取后兩種方案相結合的處理方式。第一種方案雖然基本上不會出什么大的紕漏,也能為企業留出充分的準備時間,但所需投入的資金同樣相當龐大。而其它幾種方案則相對比較繁瑣,需要縝密的規劃方能確保整體流程的順利實施,并應在實際行動之前對任何可能出現的不良狀況做出預測。
讓我們先以數據傳輸線路為例。現有數據中心可能是通過數條光纖與T1運營商相連通,而T1則負責將內部網絡與互聯網及廣域網相連。沒有這些線路的幫助,數據中心的功能將完全無法發揮,因此我們必須對其進行優先處理。不過話說回來,大家最好別對運營商那邊的工作效率抱太大指望。連架線纜這種簡單工作都可能被他們拖上好一陣子,而服務水平協議什么的這里完全就是一句空話。
根據保守估計,就算為線纜架設工作留出四到五個月的施工時間,我們仍然很可能無法按期獲得完備的線路支持。為了避免這種被動情況的發生,我們最好做兩手準備,即額外布置一到兩條企業級傳輸線纜。這類線纜在安裝方面遠遠快于專用光纖或者T1/T3線路,并能在緊要關頭成為我們的救命稻草。它的效果可能并不理想,但有總比沒有好。尤其是在運營商陷入一系列麻煩當中(例如線纜需要穿過某條街道,施工的前提是拿到市政許可;許可證一時拿不到,因此他們選擇繞過該街道,而時間就這樣被浪費掉了)的時候,這條應急線路的存在就更顯寶貴。
盡可能多投入人手也是個不錯的主意。在少數核心管理者的監控之下,不妨引入更多值得信任的員工在保證安全性的前提下手動并安裝服務器、存儲系統以及網絡設備等,這對于讓網站早日恢復運作相當重要。當高級網絡管理員埋頭處理交換機與路由器的重新配置工作時,我們實在不該再拿安裝刀片機架滑軌這種純體力活來打擾他。
此外,必須制訂一份清楚的說明,將服務器與其它設備在新場所中的部署位置安排妥當。將這份材料下發給安裝機架的技工小組,這樣系統各部件在機架中的安裝位置才不會出現錯誤。重視制訂指導材料不僅能夠加快重建速度,更會降低布線工作的難度。說到布線,我們不妨詳細討論機架通路的后備設計方案。如果大家以傳統方式從核心交換機處甩出銅線以連接所有機架,那么到頭來很可能會面對預算超支的情況:連入核心的子交換機及10G上傳線路將不得不安置在機架頂端,而一旦空間不足,接下來的改造工程將讓人頭痛萬分。
為一切配備標簽:服務器、交換機、KVM加密狗以及全部機架導軌都不例外。負責任地講,沒有什么比由于某臺關鍵任務數據庫服務器的導軌丟失而導致手頭一切工作陷入停滯更令人沮喪。另外,務必為原數據中心布局、新數據中心安裝前、安裝中及安裝后拍攝足夠多的照片資料,尤其是在遷移工作整體完成之后。
雖然有些多余,但不得不提的是,請確保負責運輸工作的司機都是盡職盡責的好師傅。在小規模遷移中,服務器及其它設備可以利用SUV或是小型上車進行運輸;而大規模遷移則可能涉及機架的整體搬運,這就意味著我們需要在貨運碼頭將器材卸至集裝箱內,并在目的地碼頭進行接收。對于企業來說,真正重要的是存儲于硬件當中的數據信息,而一旦運載這些設備的載具在高速公路上以70公里的時速前行,信息部分乃至全部丟失的風險將變得相當之高。而單純找名熱心的實習生坐在車廂里看管貨物基本上于事無補。
最后,一旦所有設備運抵目的地,那么在通電之前必須花點時間來檢查數據及供電線纜、布線路徑以及新的PDU電源負載——最好還能重新整理一遍機箱中的刀片服務器、交換機中的模塊以及熱插拔電源等。這些系統剛剛經歷了一路顛簸,天知道哪些部件產生了些許松動。
注意觀測數據中心與室外環境之間的溫度差異。假設原數據中心內部溫度為75華氏度,而核心交換機由于工作發熱而處于90華氏度,那么一旦突然將其置于溫度僅為20華氏度的室外則很可能會發生悲劇性的后果,因為電路板在驟然變冷之下很可能發生斷裂。
另外,如果遷移對象是擁有成百上千交換端口的辦公場所,請確保提前制定一套完備的VLAN端口分配方案。某些基礎設施采用的是根據登錄信息進行的動態VLAN分配機制,但有些則采取固定分配機制。我過去曾經為泛域名解析及VLAN鎖定寫過一些定制代碼,旨在提供一套自助型VLAN分配方案。當用戶們到達新的工作場所、將自己的計算機接入數據插口并打開網頁瀏覽器時,一套網頁應用程序將自動啟動,提示他們為自己的系統選擇適當的VLAN。
這套網頁應用程序的后端代碼會向對應交換機發送一條SNMP調用請求,并為該端口重新分配VLAN。幾秒鐘之后,用戶即可正常使用。這種方式在處理打印機及其它網絡設備時也同樣便捷,因為管理員能夠登入該工具在普通用戶無法查看的情況下為VLAN分配端口。此類工具無疑能為節省大量寶貴時間。
待到一切準備就緒,啟動各種設備并關注我們的監控系統,以確保各部件工作正常。這正是采用完備的網絡及服務監控系統的惟一必要原因,即根據運行狀況向我們反饋一切可能存在的問題。不過當一切步入正軌、設備正常運轉且一如預期,杯中的威士忌似乎變得更加爽口,而遷移工作中那些惱人的劃痕與擦傷也似乎不再重要。相信我,這樣的感覺真的很不錯——也許這就是成就感吧。
原文名:How to move a data center without having a heart attack 作者:Paul Venezia
原文鏈接:http://www.cioage.com/art/201201/95713.htm