對于電力企業而言,網絡系統的核心是數據,如果沒有數據或者數據不安全,就談不上電力應用。容災備份是保證電力系統正常運營的靈丹妙藥。
人為的操作錯誤、軟件缺陷、硬件故障、計算機病毒、黑客攻擊、自然災難等諸多因素,均有可能帶來數據的丟失,從而給整個電力企業帶來無法估量的損失。
筆者曾經參與了一個安全咨詢項目:某省電力公司需要建立公鑰基礎設施(Public Key Infrastructure,PKI)系統,通過發放PKI數字證書(可以形象地稱為網絡身份證),驗證每位員工的身份。
PKI系統建成后,該電力公司將門禁、計算機系統登陸、食堂用餐、電力超市消費等與數字證書關聯起來。隨后,該電力公司產生一個疑惑:數字證書信息、密鑰信息等非常重要,一旦遭受攻擊或自然災害,非常容易丟失,這時怎么辦?
應該進行遠程容災備份。
遠程容災備份是保護數據信息的重要手段,利用它,用戶可在遭受攻擊或遭遇自然災害引發數據丟失時,快速恢復數據和系統服務。
個性化需要
在電力企業中,有很多應用系統和重要數據。比如能量管理系統、電量計量、電力市場系統、水調系統、調度生產管理系統、財務管理統、用電營銷系統、辦公自動化系統、PKI系統等。這些數據大多分布在內部系統的多臺服務器上,需要容災備份的工作量比較大。
電監會電力二次系統(除PKI系統以外的容災備份系統)安全防護條文規定:電力應用系統可劃分為生產控制大區和管理信息大區。生產控制大區又可分為控制區(安全區I)和非控制區(安全區Ⅱ);在不影響生產控制大區安全的前提下,根據各企業不同的安全要求,管理信息大區又可劃分安全區。
規定還要求,應用系統必須避免不同安全區的縱向交叉連接。有鑒于此,建立異地容災備份系統,一定要考慮好系統邊界的防護問題,切勿跨越安全區。
由于業務系統關聯程度比較高(例如電力市場系統可能涉及到能量管理系統、電量計量系統等),當電力系統要做應用級的容災備份時,需將所有的系統都復制一份,還要求到各個廠、站的所有通訊兩路都響應容災。所以,無論在技術上還是投資規模上,應用級的容災備份方案實現起來較為困難。
筆者建議電力系統采用同城數據容災備份的方式。
PKI式容災備份
針對上面提及的電力用戶,建成后的PKI電力網上身份認證生產系統(即數字證書認證中心CA和密鑰管理中心KM),必須具有較高的可用性和可維護性。
一方面,如果系統發生故障或遇到災難,要保證及時恢復生產系統。
此外,考慮到災難發生的突然性,電力用戶所選用的災難備份和恢復系統,必須具有簡單、快速的易操作性,能夠以最短的時間處理故障,恢復系統的運行,并在故障消除后,將系統運行恢復原狀。
另一方面,在特殊情況下,需要對CA中心進行必要的監管和維護。這就要求系統在具有容災能力的同時,具有遠程管理和維護能力。
圖1為PKI生產系統容災備份中心的示意圖。
從圖1中可以看出,PKI生產系統容災備份中心包括CA容災備份系統與KM容災備份系統兩部分。兩個系統各自采用PKI網關等安全設備,通過備份專用通道與相應的生產系統(即CA和KM)相連。
數據備份通過專用的遠程備份服務系統加載安全備份軟件來實現。備份專用通道以專線形式,采取安全撥號、VPN、IP寬帶網等方式,提供生產系統與容災備份中心之間的安全連接。
為保證PKI生產系統能夠正常不間斷地進行生產服務,在PKI生產系統容災備份中心,CA備份系統與電力CA系統的組成需要保持一致,都應該能夠復制遠程生產系統,包括Web服務系統、目錄服務系統、證書業務管理與處理系統、證書簽發服務系統、備份服務系統、數據庫服務系統。
CA備份系統的各個系統均建立在信任服務基礎平臺之上,由相應的功能服務模塊構建而成,各功能服務模塊之間的相互協調與調度機制與生產系統相一致。
同樣,PKI生產系統容災備份中心的KM備份系統也是電力KM系統的復制,以確保緊急情況下的替換和接管。
在PKI生產系統容災備份中心的系統結構里,采用獨立的遠程備份服務系統,是因為其運行不會影響生產系統服務模塊的運行。
運行備份服務模塊上的安全備份軟件不占用正常生產系統的資源,惟一的影響是對網絡資源的占用,因為生產系統中產生的日志必須通過網絡不斷地傳送到備份服務模塊。若采用可移動介質,不會對網絡產生任何影響。
PKI生產系統的備份策略和流程為:采用全備份—差分備份方式。首先對所有的操作系統、數據庫、應用程序等進行完全備份。定期進行完全備份,包含所有的系統和數據。
在其他時間采用差分備份,一方面可以節省備份窗口,另一方面也保證能夠及時恢復數據。同時,可移動介質要放入保險柜,由專人使用,且使用時至少有兩人在場。
由于PKI生產系統容災備份中心具有遠程監管及維護功能,在CA備份系統和KM備份系統中,都設有各自獨立的遠程管理和維護座席群。
#p#副標題#e#
各單位CIO在準備建設遠程容災備份系統前,考慮好哪些數據需要進行容災,哪些數據需要進行整個系統的全備份(像前面PKI生產系統的遠程災備那樣);是否需要采用SAN架構(像一般的電力二次系統的容災備份那樣);是否要對數據庫、文件和日志等進行全備份。
通常,容災備份策略遵循以下原則:
◆ 對所有關鍵的業務,應至少保證各種必要的熱備份機制,包括雙機熱備、磁盤鏡像等。
◆ 對于所有業務,應提供磁帶備份和恢復機制,保證系統能根據備份策略恢復至指定時間的狀態。
◆ 數據備份采用全備份、增量備份或者結合兩種方式。
全備份即備份所有文件,它的特點是恢復簡單,全備份的缺點是備份時間長,介質浪費;增量備份是只備份新創建或者修改過的文件,它們一般和完整備份結合使用,從而極大的減少了備份時間,節省了備份介質。
一般結合這兩種備份形式指定所需要的備份策略。
定期的系統恢復驗證
遠程容災備份的目的在于:當業務系統出現故障時,能夠及時、準確地恢復。因此,恢復的方式十分重要。
對于電力系統中的服務器,可以通過有如VERITAS Bare Metal Restore(裸機恢復)的功能,簡化服務器的恢復過程,以完成系統的快速災難恢復。
這樣,當系統數據完全丟失時,系統管理員通過一個啟動命令,就可以進行系統數據的完整恢復,不必進行操作系統重新安裝、硬盤重新分區、IP地址重新設置以及備份軟件重新安裝等復雜操作。
遠程容災備份的定期恢復驗證也非常必要。一方面,它可以驗證容災備份數據的可用性,沒有經過驗證的備份風險非常大,這樣就可以發現備份有沒有完成或者備份錯誤等;另一方面,也可以鍛煉系統管理員的災難處理能力,免得在出現故障時無從下手。
筆者建議,電力用戶可以再配置一臺服務器,安裝所有系統涉及的應用軟件(數據庫、中間件等),專門用來做數據恢復的驗證工作。同時,在容災陣列上也要配置一定的空間,配合恢復操作。
詳細的災難恢復過程
當業務系統發生故障時,依據故障點的不同,有不同的恢復方式。但啟動恢復過程有手工和自動兩種。
自動恢復看起來是最為理想的解決辦法,不需要人為的干預,可以及時地保證系統重新運行。
但是,對于一個重要的應用系統來說,尤其涉及到核心數據庫的操作時,情況就變得復雜了,自動恢復有可能就適用。
例如,PKI生產系統發生數據庫掛起故障時,正常的Shutdown無法執行,恢復自然無法進行;還有更嚴重的是數據庫的崩潰,在沒有驗證數據的完整性之前,不能讓用戶繼續使用,否則可能造成更嚴重的損壞。
筆者建議,恢復過程最好在分析出系統問題的基礎上,判斷對系統的影響程度之后,采用手工方式進行。
例如,在一般電力二次系統容災備份系統中,連接到SAN上共用同一存儲系統的業務系統(如電力市場和PC Server集群),由于可以實現同步的數據復制,其故障恢復過程如下:
◆ 一臺服務器故障,另一臺服務器接管應用;
◆ 磁盤陣列故障,手工切換到容災系統的磁盤陣列;
◆ 數據庫崩潰,數據不可用,利用備份磁帶恢復。
鏈接
容災備份的內涵
容災備份有多種解決方案,隨著系統重要程度的不同而不同。從距離上說,要實現容災備份,容災備份中心和生產中心間的距離就不能很近。
例如,15km的距離對雷擊、火災等有一定作用,但對于地震、洪水等自然災害,容災備份地點的物理距離還要加大。
目前,容災備份系統基本可以分為數據容災備份和應用容災備份兩種。采用哪種方式主要取決于企業對故障停機時間的設計要求,即對災難發生后系統恢復時間的要求。
如果要求系統恢復時間很短,就要采用應用級的容災備份,同時也要做好網絡鏈路的冗余,以及與應用的異地接管。如果企業能夠容忍較長一點的系統恢復時間,可以采用數據級的容災備份。
從對數據一致性的要求上來說,容災備份實現數據傳輸的方式又可分為同步和異步兩種。同步數據復制將嚴格保持生產系統和備份系統之間數據的同步,災難發生后,幾乎沒有數據的丟失,但對容災備份距離和系統性能會有一定的影響。
異步數據復制將保持生產系統和備份系統之間數據在一定時間點的一致性,災難發生后,數據有部分的丟失,但對容災備份距離和系統性能的影響相對于同步要小。
由于傳輸帶寬和響應時間的限制,同步復制選擇容災備份的地點和傳輸方式也十分重要。
例如,在距離為60km/1Gb的光纖傳輸條件下,數據庫寫操作的性能下降大于7倍以上。另一方面,當復制帶寬遠遠小于I/O峰值時,容災備份端數據滯后會較大。同時,系統的投資也會隨著距離的增加而增加。