斷電導(dǎo)致HP EVA存儲數(shù)據(jù)丟失的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
HP EVA存儲,6塊SAS硬盤組建的raid5磁盤陣列。上層操作系統(tǒng)是WINDOWS SERVER。該存儲為公司內(nèi)部文件服務(wù)器使用。

服務(wù)器故障&分析:
在遭遇兩次意外斷電后,設(shè)備重啟時raid提示“無法找到存儲設(shè)備”。管理員嘗試進入raid管理模塊時死機,多次重啟嘗試后故障依舊。
這是一個典型的由于意外斷電導(dǎo)致raid硬件模塊損壞或者riad管理信息丟失等raid故障的情況。正常情況下,raid一旦創(chuàng)建完成,raid管理模塊中的信息不會輕易更改,但是raid管理模塊的信息是可修改的信息。一次或多次的意外斷電是有可能導(dǎo)致raid管理模塊中的信息被篡改或丟失,斷電次數(shù)過多時甚至可能直接導(dǎo)致raid卡上的元器件損壞。該案例中的故障就是屬于這種情況。

服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、首先由硬件工程師檢測故障存儲中的所有硬盤的物理故障,所有硬盤讀取正常,沒有發(fā)現(xiàn)存在明顯的物理故障。
2、將故障存儲中所有磁盤以只讀方式進行全盤鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
3、北亞企安數(shù)據(jù)恢復(fù)工程師基于鏡像文件分析底層數(shù)據(jù),確定故障存儲中6塊磁盤的數(shù)據(jù)塊大小、條帶信息、盤序、校驗方式等RAID信息,根據(jù)這些信息虛擬重建raid陣列。
4、邏輯校驗重構(gòu)RAID中的數(shù)據(jù),在確認重構(gòu)RAID各參數(shù)正確無誤后,對所需要恢復(fù)的數(shù)據(jù)進行完全驗證。
5、在數(shù)據(jù)恢復(fù)工程師驗證沒有發(fā)現(xiàn)問題后,交由用戶方親自驗證。經(jīng)過反復(fù)驗證,用戶方工程師確認恢復(fù)的數(shù)據(jù)完整可用,達到預(yù)期。
6、將數(shù)據(jù)遷移至用戶方準備好的存儲環(huán)境中,再次驗證沒有發(fā)現(xiàn)問題。

服務(wù)器數(shù)據(jù)安全Tips:
1、盡量保證機房供電穩(wěn)定,減少供電異常對服務(wù)器和存儲的影響。
2、為重要的服務(wù)器及存儲配備UPS,在意外斷電的情況下能讓核心業(yè)務(wù)繼續(xù)運行一段時間,為應(yīng)急方案的實施贏得時間。
3、定期對服務(wù)時間長的服務(wù)器和存儲進行安全狀況檢查,對這些老舊設(shè)備的整體運行狀態(tài)進行評估,及時更換硬件和升級軟件,將可能的隱患提前排除。
4、制定突發(fā)數(shù)據(jù)災(zāi)難的緊急處理方案,降低業(yè)務(wù)損失。
