數(shù)據(jù)量的爆炸性增長,讓我們不得不更加關(guān)心存儲(chǔ)。這也造成了目前談?wù)?ldquo;數(shù)據(jù)挖掘”、“知識(shí)管理”等話題更容易引起共鳴。現(xiàn)在所說的存儲(chǔ),并非是 簡單的“存”和“儲(chǔ)”的含義,不是把數(shù)據(jù)放在角落里就萬事大吉的。更重要的是,我們要通過這些數(shù)據(jù),進(jìn)一步產(chǎn)生價(jià)值,提升企業(yè)業(yè)務(wù)能力,增加效益。這時(shí) 候,“存儲(chǔ)”就演變成了更多的其他含義。比如“備份”、“數(shù)據(jù)歸檔”、“數(shù)據(jù)保護(hù)”、“數(shù)據(jù)挖掘”等等。那么在這些“存儲(chǔ)”的替代名詞之中,目前哪個(gè)是業(yè) 界談?wù)撟疃嗟哪?“數(shù)據(jù)歸檔”當(dāng)屬其一。為什么這么說?是有充足理由的。
備份與數(shù)據(jù)歸檔 即分散又統(tǒng)一
存儲(chǔ)網(wǎng)絡(luò)工業(yè)協(xié)會(huì)(SNIA)是如何解釋數(shù)據(jù)歸檔的呢?SNIA在《網(wǎng)絡(luò)存儲(chǔ)雙語詞典》中的解釋是——Archive(數(shù)據(jù)歸檔)是指數(shù)據(jù)集合 的一致性拷貝,通常用以長期持久地保存事務(wù)或者應(yīng)用狀態(tài)記錄。一般情況下,數(shù)據(jù)歸檔通常用以審計(jì)和分析的目的,而不是用于應(yīng)用恢復(fù)的目的。
上面的解釋太術(shù)語了,不好理解,那么我們可以用備份和數(shù)據(jù)歸檔作一下對(duì)比,因?yàn)閭浞菔呛芏嗳巳菀桌斫獾拿~。備份和數(shù)據(jù)歸檔都是數(shù)據(jù)存儲(chǔ)的應(yīng)用 形式,只是應(yīng)用目的不同。
先來看看備份,其實(shí)就是對(duì)數(shù)據(jù)進(jìn)行復(fù)制,是為了確保在出現(xiàn)數(shù)據(jù)丟失或系統(tǒng)災(zāi)難時(shí)將復(fù)制的數(shù)據(jù)恢復(fù)回來。因此備份關(guān)注的是業(yè)務(wù)信息的變化和更新, 是短期的存儲(chǔ)行為,并且經(jīng)常被覆蓋。比如銀行每天要備份交易記錄。
根據(jù)備份的解釋再來看數(shù)據(jù)歸檔就很好理解了。數(shù)據(jù)歸檔是針對(duì)“海量數(shù)據(jù)”的應(yīng)用,是對(duì)數(shù)據(jù)進(jìn)行有計(jì)劃的遷移。當(dāng)數(shù)據(jù)停止改變或不被頻繁使用時(shí), 通過數(shù)據(jù)歸檔把它們轉(zhuǎn)移到別的地方,讓出主存儲(chǔ)空間,并且使之處于日常的備份窗口之外,既節(jié)約了空間,又提升了備份的效率。
那么根據(jù)上面的解釋,如果再簡化來說,那就是“Ctrl+C”和“Ctrl+X”的區(qū)別,備份是復(fù)制,數(shù)據(jù)歸檔是剪切。當(dāng)然,這只是為了方便理 解的比喻,其實(shí)里面的玄機(jī)還是很多的。
備份和數(shù)據(jù)歸檔雖有區(qū)別但又互相聯(lián)系。只要涉及到數(shù)據(jù)歸檔必然會(huì)有數(shù)據(jù)備份的需求,并且兩者都是對(duì)存儲(chǔ)設(shè)備進(jìn)行操作,因此它們完全可以基于同一 技術(shù)體系來實(shí)現(xiàn)。所以我們看現(xiàn)在的主流存儲(chǔ)廠商推出的都是“數(shù)據(jù)管理軟件”,既能備份,又可以數(shù)據(jù)歸檔,大有“分而合之”之意。目前,備份和數(shù)據(jù)歸檔常常 放在一起考慮,統(tǒng)稱BURA (BackUp, Restore, Archive)。兩者相似之處都是用復(fù)制來保護(hù)重要數(shù)據(jù)不被損壞或丟失。常見的BURA解決方案是D2D2T,就是Backup Disk to Disk, then to Tape。這樣滿足了對(duì)備份速度的要求,也滿足了對(duì)大容量長保存時(shí)間的數(shù)據(jù)歸檔要求,平衡了各方面的需求。
廠商推出的軟件既然如此,那么企業(yè)對(duì)數(shù)據(jù)歸檔與備份的需求也是分不開的。對(duì)企業(yè)而言,備份和數(shù)據(jù)歸檔具有兩種不同但互補(bǔ)的功能:備份用于快速復(fù) 制和恢復(fù),以減少故障、人員錯(cuò)誤或?yàn)?zāi)難帶來的影響;數(shù)據(jù)歸檔則用于對(duì)數(shù)據(jù)進(jìn)行有效的管理、保留和長期的訪問與檢索。企業(yè)可以將數(shù)據(jù)歸檔和備份結(jié)合起來用, 以達(dá)到優(yōu)化成本、改進(jìn)存儲(chǔ)基礎(chǔ)設(shè)施的整體效力,使備份能夠在有效的數(shù)據(jù)歸檔解決方案下變得更有效率,而數(shù)據(jù)歸檔也可以利用備份基礎(chǔ)設(shè)施滿足數(shù)據(jù)保護(hù)需要。
需求飆升 容量左右應(yīng)用
隨著數(shù)據(jù)量的爆炸性增長,數(shù)據(jù)歸檔的需求明顯增多。IDC在發(fā)布《2007年第三季度全球存儲(chǔ)軟件市場(chǎng)收入》時(shí),其存儲(chǔ)軟件分析師 Michael Margossian曾說到:“整個(gè)市場(chǎng)受到數(shù)據(jù)歸檔和數(shù)據(jù)保護(hù)與恢復(fù)軟件市場(chǎng)強(qiáng)勁需求的推動(dòng)。企業(yè)對(duì)備份軟件的需求似乎有所降溫,對(duì)數(shù)據(jù)歸檔軟件的需求 逐漸抬頭。”
那么對(duì)于企業(yè)來說,在當(dāng)前的市場(chǎng)競(jìng)爭環(huán)境中,需要增加數(shù)據(jù)分析能力以提升競(jìng)爭力非用“數(shù)據(jù)歸檔”不可。比如我們查詢每月電話費(fèi),目前只能查到6 個(gè)月之內(nèi)的費(fèi)用。而一年前的話費(fèi)呢?并非電信部門將此數(shù)據(jù)刪除了,只是沒有讓其顯示給用戶。這些更久遠(yuǎn)的數(shù)據(jù)是被“數(shù)據(jù)歸檔”了,但是又可以供電信部門隨 時(shí)查看。當(dāng)電信部門需要分析話費(fèi),進(jìn)而推出新業(yè)務(wù)時(shí),就會(huì)從數(shù)據(jù)歸檔數(shù)據(jù)中調(diào)出這些“年代久遠(yuǎn)”的數(shù)據(jù)來。國內(nèi)一家制造領(lǐng)域大型企業(yè)CIO的感觸也十分 “直白”。他認(rèn)為,“讓數(shù)據(jù)賺錢,比讓數(shù)據(jù)省錢來的更加有價(jià)值。”這也表明了,數(shù)據(jù)歸檔比備份來說,更容易幫助企業(yè)提升競(jìng)爭力。
可以說,數(shù)據(jù)歸檔是在企業(yè)實(shí)施備份方案后的進(jìn)一步對(duì)數(shù)據(jù)的梳理。為什么說是在備份基礎(chǔ)之上的升華呢?因?yàn)闆]有備份數(shù)據(jù)的情況下,誰敢“剪切”。 所以備份是前提,數(shù)據(jù)歸檔是提升。而且數(shù)據(jù)歸檔也比備份的前提條件要求更多。首先就是容量的要求,一般量級(jí)都是在TB級(jí)甚至PB級(jí)。對(duì)于不到TB級(jí)存儲(chǔ)量 的企業(yè)來說,與其采用數(shù)據(jù)歸檔,還不如直接加大磁盤容量來的實(shí)際。比如佛山伊戈?duì)栠@家致力于向全球市場(chǎng)提供電源變壓器、電力變壓器和變壓器鐵芯組件的專業(yè) 供應(yīng)商,其IT部門負(fù)責(zé)人歐建文在接受記者采訪時(shí)介紹道:“在容量方面,佛山伊戈?duì)栢]件數(shù)據(jù)庫120GB、工程資料文件70GB、一般應(yīng)用系統(tǒng)SQL數(shù)據(jù) 庫120GB、Oracle數(shù)據(jù)庫及應(yīng)用有170GB,總共480GB的數(shù)據(jù)量。由于數(shù)據(jù)量不大,我們確實(shí)對(duì)數(shù)據(jù)歸檔技術(shù)沒有需求,只是使用了備份功 能。”
但并不意味著現(xiàn)在沒有應(yīng)用數(shù)據(jù)歸檔技術(shù)的企業(yè)對(duì)這項(xiàng)技術(shù)就不關(guān)心。比如2007年,SNIA完成了一項(xiàng)全面調(diào)查,該調(diào)查涉及了來自世界各國各種 組織的數(shù)百人。令人驚訝的是,80%的人說他們的信息必須保存50年以上,68%的人說他們的數(shù)據(jù)必須保存100年以上。這樣保存數(shù)據(jù)的話,容量增長可想 而之。所以佛山伊戈?duì)栆部吹搅诉@種數(shù)據(jù)爆炸增長的趨勢(shì),在制定未來3年IT建設(shè)規(guī)劃時(shí),“數(shù)據(jù)歸檔”已經(jīng)躍然紙上。歐建文對(duì)記者說:“目前數(shù)據(jù)歸檔技術(shù)已 經(jīng)排在佛山伊戈?duì)栁磥?年內(nèi)應(yīng)用的日程上了,未來會(huì)首先在ERP、財(cái)務(wù)信息和郵件方面應(yīng)用數(shù)據(jù)歸檔。”
ILM解決數(shù)據(jù)歸檔難題
雖然數(shù)據(jù)歸檔的需求正在逐步崛起,但是擺在我們面前的難題其實(shí)還有很多。其中最主要的有兩個(gè)難點(diǎn):數(shù)據(jù)長期保留和法規(guī)遵從。數(shù)據(jù)保留的時(shí)間遠(yuǎn)遠(yuǎn) 超過存儲(chǔ)系統(tǒng)(磁盤或磁帶)和應(yīng)用程序的壽命。對(duì)于長期數(shù)據(jù)歸檔(15 年以上),最大的挑戰(zhàn)是邏輯遷移。邏輯遷移保持了應(yīng)用程序的特定性,自動(dòng)化主要流程變得更困難。完整“保存”需要保持?jǐn)?shù)據(jù)的可讀性和可解釋性。
在法規(guī)遵從方面,隨著越來越多的商務(wù)運(yùn)作采用數(shù)字方式進(jìn)行記錄和存儲(chǔ),制定用以管理商務(wù)和數(shù)據(jù)的相關(guān)法律法規(guī)越來越多,未能遵從這些法規(guī)而造成 的后果也變得越來越嚴(yán)重。除遵從政府的規(guī)范法規(guī)之外,組織還需要制定自己的內(nèi)部政策和規(guī)程,緩解風(fēng)險(xiǎn)和控制 IT。層層的法規(guī)遵從給數(shù)據(jù)歸檔增加了難度。
目前在磁盤或磁帶上做備份、數(shù)據(jù)歸檔,每隔3~5年就需要遷移一次數(shù)據(jù)(同時(shí)在物理上和邏輯上)。物理遷移需要將信息從一個(gè)物理存儲(chǔ)系統(tǒng)移到另 一個(gè)系統(tǒng),或從一種介質(zhì)格式移到另一種格式以維持物理可讀性、可訪問性和完整性。邏輯遷移需要將信息從一種邏輯格式移到另一種格式(如從應(yīng)用程序的舊版本 移到新版本),以保持可讀性和可解釋性。所以,對(duì)于上面提到的SNIA調(diào)查得出的結(jié)論,“絕大部分人希望數(shù)據(jù)保存50年甚至100年”,那么存儲(chǔ)于磁帶, 則要面臨讀取困難和保存時(shí)間不夠長這樣的問題。簡而言之,我們需要保留信息的時(shí)間遠(yuǎn)遠(yuǎn)超過存儲(chǔ)系統(tǒng)(磁盤或磁帶)和應(yīng)用程序的典型生命周期。甚至保留期還 沒到,物理介質(zhì)就開始退化,變得無法讀取。
那么有沒有什么方法,既可以長久保留數(shù)據(jù),又可以增加容量,還能快速讀取數(shù)據(jù)呢? SNIA長期數(shù)據(jù)歸檔和法規(guī)遵從存儲(chǔ)計(jì)劃 (LTACSI) 主席、NetApp全球?qū)嵺`總監(jiān)Gary Zasman給出的建議是:針對(duì)應(yīng)用程序、操作及數(shù)據(jù)存儲(chǔ)庫實(shí)施正式生命周期管理流程,以在使用壽命中解決數(shù)據(jù)管理的效率問題。
目前,在數(shù)據(jù)歸檔中應(yīng)用ILM(Information Lifecycle Management,信息生命周期管理)的理念已經(jīng)逐步被用戶接受,這不僅能幫助企業(yè)從整體上改善其數(shù)據(jù)資產(chǎn)的管理,以最低的成本來實(shí)現(xiàn)大量數(shù)據(jù)的有效 管理與高效利用。并且隨著應(yīng)用的成熟與現(xiàn)實(shí)的需求,數(shù)據(jù)加密、身份認(rèn)證、虛擬化等技術(shù)也逐步走進(jìn)數(shù)據(jù)歸檔的應(yīng)用中,并且有效地提高了數(shù)據(jù)歸檔應(yīng)用的效率, 增強(qiáng)了數(shù)據(jù)安全性,大大降低了操作的復(fù)雜性和成本。
數(shù)據(jù)歸檔技術(shù)走向何方
一個(gè)好的存儲(chǔ)數(shù)據(jù)歸檔系統(tǒng)可以幫助企業(yè)實(shí)現(xiàn)以下目標(biāo):降低保留歷史數(shù)據(jù)的成本;更有效和快捷地對(duì)歷史數(shù)據(jù)訪問和利用;減少保護(hù)和維護(hù)信息所需的 人力管理成本;保護(hù)數(shù)據(jù)歸檔數(shù)據(jù)的安全性。但是對(duì)于數(shù)據(jù)的讀取,數(shù)據(jù)歸檔現(xiàn)在還不能做到盡善盡美。比如我們現(xiàn)在拿起一本100年前的書,可以毫不費(fèi)力地進(jìn) 行閱讀,而幾年前的備份磁帶,讀取可能要困難得多。即使有正確的硬件來讀取磁帶(且磁帶本身仍然完好),我們還是需要知道磁帶的寫入格式,且需要可以識(shí)別 此數(shù)據(jù)的應(yīng)用程序。
在IT應(yīng)用早期,磁盤陣列不像今天這么發(fā)達(dá),磁帶庫是主要的備份技術(shù)。如今,硬盤越來越便宜,不僅磁帶在備份中的應(yīng)用減少了,甚至有人提出用磁 盤陣列來做數(shù)據(jù)歸檔,全面取代磁帶庫。但是,由于磁盤陣列的技術(shù)特性所決定,存儲(chǔ)在其中的資料都處在熱狀態(tài)。這就是說,用于數(shù)據(jù)歸檔的磁盤存儲(chǔ)系統(tǒng)不應(yīng)該 關(guān)機(jī),其重新加電的過程也很復(fù)雜。而在提倡“綠色計(jì)算”的今天,長期開機(jī)很不利于能耗的降低。而且,幾十年、上百年的資料,使用頻度不一定很高,磁盤和磁 帶相比,成本效益就更加懸殊。所以說,對(duì)于數(shù)據(jù)歸檔來說,磁帶庫仍然是不可替代的最佳選擇。
為了更快更方便地讀取數(shù)據(jù),數(shù)據(jù)歸檔的理想方案應(yīng)該是VTL(虛擬磁帶庫)。VTL通常具有幾個(gè)重要優(yōu)點(diǎn),同其他D2D解決方案一樣,它們?cè)诒?質(zhì)上比磁帶更可靠,并且不會(huì)出現(xiàn)介質(zhì)錯(cuò)誤、機(jī)械故障或起停問題。虛擬磁帶機(jī)和介質(zhì)如果使用穩(wěn)定,則不會(huì)磨損;它們也不需要清潔和維護(hù)。最重要的是,與物理 磁帶庫相比,企業(yè)VTL可以使數(shù)據(jù)歸檔的性能提高一個(gè)數(shù)量級(jí)。不過VTL雖然性能出眾、又具有管理便捷的優(yōu)勢(shì),但是其成本依然是一道難以逾越的門檻,這讓 很多有數(shù)據(jù)歸檔需求用戶不得不望VTL興嘆。