服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
北京某單位有一臺(tái)EMC某型號(hào)存儲(chǔ),有一組由10塊STAT硬盤(pán)組建的RAID5陣列,另外2塊磁盤(pán)作為熱備盤(pán)使用。RAID5陣列上層只劃分了一個(gè)LUN,分配給SUN小機(jī)使用,上層文件系統(tǒng)為ZFS。
服務(wù)器故障:
存儲(chǔ)RAID5陣列中有2塊硬盤(pán)損壞離線,只有一塊熱備盤(pán)激活,RAID5陣列癱瘓,上層LUN無(wú)法正常使用。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、將故障存儲(chǔ)中所有磁盤(pán)編號(hào)后取出,由硬件工程師對(duì)所有磁盤(pán)做硬件故障檢測(cè),經(jīng)過(guò)檢測(cè)沒(méi)有發(fā)現(xiàn)有硬盤(pán)存在物理故障和壞道。

北亞企安數(shù)據(jù)恢復(fù)——ZFS數(shù)據(jù)恢復(fù)
磁盤(pán)沒(méi)有發(fā)現(xiàn)物理故障和壞道,初步推斷是某些磁盤(pán)讀寫(xiě)不穩(wěn)定導(dǎo)致故障發(fā)生。EMC控制器的磁盤(pán)檢測(cè)策略非常嚴(yán)格,一旦檢測(cè)到某些磁盤(pán)性能不穩(wěn)定,EMC控制器極有可能會(huì)判定這些磁盤(pán)為壞盤(pán),將認(rèn)定為壞盤(pán)的磁盤(pán)踢出RAID陣列。一旦RAID陣列中掉線的盤(pán)到達(dá)到該RAID級(jí)別允許掉盤(pán)的極限值,就會(huì)導(dǎo)致RAID陣列崩潰不可用,由于EMC存儲(chǔ)的LUN都是基于RAID陣列的,RAID崩潰會(huì)導(dǎo)致基于該RAID陣列的LUN不可用。
2、將故障存儲(chǔ)中所有磁盤(pán)以只讀方式做全盤(pán)鏡像備份,鏡像完成后按照編號(hào)將所有磁盤(pán)還原到原存儲(chǔ)中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤(pán)數(shù)據(jù)造成二次破壞。鏡像完成后發(fā)現(xiàn)源磁盤(pán)的扇區(qū)大小為520字節(jié),使用工具將鏡像數(shù)據(jù)做520字節(jié)To512字節(jié)的轉(zhuǎn)換。
3、基于鏡像文件分析底層RAID5陣列的相關(guān)信息。經(jīng)過(guò)分析發(fā)現(xiàn)發(fā)現(xiàn)其中有2塊盤(pán)(8號(hào)盤(pán)和11號(hào)盤(pán))完全沒(méi)有數(shù)據(jù),從管理后臺(tái)上顯示這2塊盤(pán)是Hot Spare,8號(hào)盤(pán)替換了離線的5號(hào)盤(pán)。雖然8號(hào)盤(pán)作為熱備盤(pán)成功激活,但該RAID級(jí)別為RAID5,因?yàn)橛?塊盤(pán)離線,所以該RAID5陣列還缺失一塊硬盤(pán),所以數(shù)據(jù)沒(méi)有同步到8號(hào)盤(pán)中。繼續(xù)分析其他10塊硬盤(pán),分析數(shù)據(jù)在硬盤(pán)中的分布規(guī)律、RAID條帶的大小、盤(pán)序等相關(guān)信息。
4、根據(jù)上面步驟分析出來(lái)的RAID信息虛擬重構(gòu)原RAID。由于整個(gè)RAID陣列中一共掉線兩塊盤(pán),需要分析這兩塊盤(pán)掉線的順序。經(jīng)過(guò)分析發(fā)現(xiàn)有一塊盤(pán)在同一個(gè)條帶上的數(shù)據(jù)和其他盤(pán)明顯不一樣,因此初步判斷此盤(pán)可能是先掉線的。使用北亞企安自主開(kāi)發(fā)的RAID校驗(yàn)程序?qū)@個(gè)條帶做校驗(yàn)后確認(rèn)先掉線的那塊硬盤(pán)。
5、由于LUN是基于RAID陣列的,完成原RAID陣列的重組后分析LUN在RAID陣列中的分配信息和LUN分配的數(shù)據(jù)塊MAP。根據(jù)LUN相關(guān)信息解釋LUN的數(shù)據(jù)MAP并導(dǎo)出LUN的所有數(shù)據(jù)。
6、使用北亞企安自主開(kāi)發(fā)的ZFS文件系統(tǒng)解釋程序?qū)ι傻腖UN做文件系統(tǒng)解釋,在解釋某些文件系統(tǒng)元文件的過(guò)程中程序報(bào)錯(cuò)。開(kāi)發(fā)工程師對(duì)程序做debug調(diào)試并分析程序報(bào)錯(cuò)原因,經(jīng)過(guò)數(shù)小時(shí)的分析與調(diào)試,發(fā)現(xiàn)無(wú)法解釋文件系統(tǒng)的的原因是存儲(chǔ)癱瘓導(dǎo)致ZFS文件系統(tǒng)中某些元文件損壞。人工修復(fù)這些損壞的元文件。
7、修復(fù)完成后解析ZFS文件系統(tǒng),解析所有文件節(jié)點(diǎn)及目錄結(jié)構(gòu)。

北亞企安數(shù)據(jù)恢復(fù)——ZFS數(shù)據(jù)恢復(fù)
8、由用戶方工程師對(duì)恢復(fù)出來(lái)的數(shù)據(jù)進(jìn)行驗(yàn)證,驗(yàn)證過(guò)程中沒(méi)有發(fā)現(xiàn)問(wèn)題,確認(rèn)恢復(fù)數(shù)據(jù)完整有效。本次數(shù)據(jù)恢復(fù)工作完成。

北亞企安數(shù)據(jù)恢復(fù)——ZFS數(shù)據(jù)恢復(fù)

北亞企安數(shù)據(jù)恢復(fù)——ZFS數(shù)據(jù)恢復(fù)
審核編輯:湯梓紅
-
服務(wù)器
+關(guān)注
關(guān)注
14文章
10251瀏覽量
91480 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
712瀏覽量
18983 -
RAID5
+關(guān)注
關(guān)注
0文章
137瀏覽量
13317
發(fā)布評(píng)論請(qǐng)先 登錄
【服務(wù)器數(shù)據(jù)恢復(fù)】IBM服務(wù)器raid5數(shù)據(jù)恢復(fù)案例
【服務(wù)器數(shù)據(jù)恢復(fù)】EMC存儲(chǔ)raid5多塊磁盤(pán)離線的數(shù)據(jù)恢復(fù)案例
【服務(wù)器數(shù)據(jù)恢復(fù)】IBM服務(wù)器5盤(pán)raid5數(shù)據(jù)恢復(fù)案例
IBM服務(wù)器RAID5陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)-Linux服務(wù)器RAID5數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—EMC存儲(chǔ)raid5故障的數(shù)據(jù)恢復(fù)案例
【服務(wù)器數(shù)據(jù)恢復(fù)】raid5崩潰導(dǎo)致同友存儲(chǔ)無(wú)法啟動(dòng)的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—華為OceanStor存儲(chǔ)raid5數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—光纖存儲(chǔ)中raid5出現(xiàn)故障的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—StorNext文件系統(tǒng)下raid5數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—同友存儲(chǔ)raid5陣列崩潰的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列硬盤(pán)壞道導(dǎo)致raid崩潰的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—EMC存儲(chǔ)中raid5陣列多塊硬盤(pán)離線的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤(pán)未完全激活導(dǎo)致陣列崩潰的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—硬盤(pán)指示燈亮黃燈,RAID5崩潰數(shù)據(jù)這樣恢復(fù)
服務(wù)器數(shù)據(jù)恢復(fù)-EMC存儲(chǔ)RAID5崩潰的數(shù)據(jù)恢復(fù)案例
評(píng)論