EDI6600FF 系列是一款高性能的光纖通道存儲(chǔ)產(chǎn)品 ,EDI6600FF 的一個(gè)磁盤子系統(tǒng)可支持 14 個(gè)磁盤 , 當(dāng)需要更多存儲(chǔ)容量時(shí),可通過連接最多 8 個(gè)子系統(tǒng),達(dá)到 112 個(gè)硬盤的總?cè)萘俊?/p>
本案例是由一個(gè)主柜和三個(gè)擴(kuò)展柜組成的 4 組 raid5
故障描述:
由于 Raid 卡硬件設(shè)備故障,導(dǎo)致 4 組 Raid5 中的 3 組在系統(tǒng)上識(shí)別不了。陣列中的數(shù)據(jù)非常重要,即便更換 Raid 卡,重新配置 raid 信息,也不能保證數(shù)據(jù)安全。經(jīng)再三考慮,客戶決定先尋找一種相對安全的方法,把數(shù)據(jù)都備份出來,然后才決定更換硬件設(shè)備。
解決方案:
面對眼前的 42 塊從陣列中拔下來的光纖接口的大小為 146GB 的硬盤,技術(shù)工程師如果沒有豐富的經(jīng)驗(yàn)和深厚的數(shù)據(jù)恢復(fù)知識(shí),一是不能平靜自己,二是不能說服客戶。護(hù)航時(shí)代的小伙子們從容接下了這個(gè)項(xiàng)目。
第一步、確定磁盤分組 硬盤是從 1-42 編號,第一組、第二組、第三組故障 Raid5 都是由 14 塊盤組成。每組 raid 中的 14 塊盤并不是一個(gè)節(jié)點(diǎn)中的 14 塊盤,而是幾個(gè)節(jié)點(diǎn)中的盤都有,幸好硬件工程師在配置 raid 的時(shí)候做了詳細(xì)的記錄,省了從 42 塊盤中分析哪 14 塊盤是一組 raid5 的時(shí)間, raid5 磁盤分組確認(rèn)順利完成。
第二步、分析底層數(shù)據(jù)走向 這一步是 raid 數(shù)據(jù)恢復(fù)最關(guān)鍵的一步,其實(shí)只要分析出一組 raid5 的數(shù)據(jù)組合規(guī)律,其它兩組也就順理成章的出來。有了經(jīng)驗(yàn)以后, raid5 是最常見也是比較容易分析的,它不像 HP RAID ADG 、 Raid1+e 、 Raid1 擴(kuò)展等那樣難。技術(shù)工程師很快就分析出數(shù)據(jù)組合規(guī)律。
第三步、重組數(shù)據(jù) 如果說分析數(shù)據(jù)走向是關(guān)鍵一步的話,那么重組數(shù)據(jù)就是最核心的技術(shù)了。護(hù)航時(shí)代擁有自主知識(shí)產(chǎn)權(quán)的“護(hù)航艦” Raid 數(shù)據(jù)重組軟件,可以重組任何一款 Raid 數(shù)據(jù)。有些數(shù)據(jù)恢復(fù)公司每當(dāng)遇到一種算法較為復(fù)雜 raid ,借助市面上的數(shù)據(jù)恢復(fù)軟件沒法做到的,就認(rèn)為是不可修復(fù)的。其根本就是不專業(yè)的技術(shù),用二流的免費(fèi)的或者國外破解版的數(shù)據(jù)恢復(fù)軟件去恢復(fù)高端 raid 故障,只能是碰碰運(yùn)氣,根本沒有理論和技術(shù)支撐。“護(hù)航艦” raid 恢復(fù)技術(shù),從理論上可以證明哪些故障是可救的,哪些是不可救的。
實(shí)際操作中遇到的問題:
天有不測風(fēng)云,人有禍福旦夕。在數(shù)據(jù)恢復(fù)過程中,數(shù)據(jù)還沒展現(xiàn)在你的眼前之前,你千萬不能說 OK ,因?yàn)樵谶@里頭的不確定因素較多。原本以為第一組故障 raid 重組很順利,沒想到這 14 塊盤中有一塊盤識(shí)別不正常,然后我們?nèi)边@個(gè)塊盤進(jìn)行數(shù)據(jù)重組,沒想到組合到 70GB 的時(shí)候發(fā)現(xiàn)有一塊盤有大量物理壞道,我們只能終止程序。當(dāng)發(fā)現(xiàn) raid5 中有兩塊及兩塊以上的盤出現(xiàn)物理故障,數(shù)據(jù)恢復(fù)到這個(gè)階段人的心情是最郁悶和難受的。但是憑經(jīng)驗(yàn),我們決定對有壞道的硬盤單獨(dú)做個(gè)鏡像,然后用鏡像文件重組。實(shí)在不行,就只能搶修不能識(shí)別的那塊盤了。最后終于克服了所有困難,成功恢復(fù)出所有的數(shù)據(jù)。
小結(jié):
在高端存儲(chǔ)設(shè)備出現(xiàn)故障時(shí),首先要想到的是數(shù)據(jù)的重要性,其實(shí)這就是一種思想認(rèn)識(shí)和備份意識(shí)。如果數(shù)據(jù)非常重要,我們建議不要在故障設(shè)備上作任何夸張的操作(指的是 Rebuild 、初始化、同步數(shù)據(jù)、重配 raid 等),這些操作都是比較致命的,是不可逆的。要尋求專業(yè)的數(shù)據(jù)恢復(fù)公司,給您提供合理的恢復(fù)方案,您才能放心的把您的硬盤送上手術(shù)臺(tái)。那些非專業(yè)公司,如果要求您提供陣列卡或者服務(wù)器做恢復(fù)的話,您應(yīng)該考慮其技術(shù)的可靠性。