RAID資料救援
現場檢測當日取資料的可能
磁碟陣列資料救援
Disk Array Data Recovery
RAID無法讀取、RAID硬碟故障2台、RAID5 壞兩顆、RAID故障、異常、離線、亮紅燈、VMWare Failure。
IBM、HP、Dell、Infortrend
RAID5、RAID0、RAID6
RAID Offline、RAID 無法讀取、
RAID硬碟故障2台、RAID 故障、
MySQL、MSSQL、SQL Server、
Oracle等種類資料檔
現場檢測
工程師現場檢測一般受損約 1-2日可知結果。受損嚴重則需更詳細檢查。
隔日取資料
輕微受損+資料量少,通常可於隔日取資料,但需視當日作業狀況
已故障 RAID內有重要資料搶救,強烈建議客戶『親自送修』,勿快遞:
快遞易『碰撞、遺失』風險高。
親自送修可現場查證廠商的規模?是否真有無塵室?等級?員工素質?正派?
- 可當面和工程師討論、需搶救重要資料?機率?預估費用?
RAID無法連線,資料可救嗎?
RAID無法連線時,如不是網路線接觸不良,通常都是硬碟故障導致無法 Mount。如硬碟磁片無嚴重磨損,都有機會救回。
輕微受損
一般 RAID0、1 誤刪除檔案&資料夾、
誤覆寫、誤格式化、磁片磨損輕微…..
NT:2萬多元 — 3萬多/組
中度受損
RAID5 組態遭破壞,RAID5 故障2台硬碟。
NT:3萬多以上 /組(視硬碟台數計價)
嚴重受損
RAID5 多台硬碟磁片嚴重刮傷,嚴重異聲,
RAID5 組態嚴重受損(RAID configuration)。
NT:5萬多 以上 /組(視硬碟台數計費)
我們 如何檢測 RAID?
RAID0、RAID1、RAID5+1、RAID6、RAID10 救援
本公司是亞洲極少數有 20年以上累計近千組搶救 RAID資料豐富經驗。熟悉早期的 IBM Server、HP ProLiant……並繼續鑽研近年熱門的 VMware…..,提供客戶『可靠、安全』的 RAID資料救援。
我們和別家不一樣地方
本公司 RAID 磁碟陣列檢測程序,
- 先取下所有硬碟,並加註『順序』。
- 接下來最重要也常被忽視步驟『先搶救 RAID Configuration』這是紀錄該組 RAID 建置架構,故障紀錄 Error log…..對資料救援非常重要。
- 檢查各硬碟順序正確否?
- 檢查各硬碟正常?受損程度?
- 檢查 RAID 資料是否存在?
企業級磁碟陣列 RAID 資料回復比從單台的硬諜難度高很多。程序複雜耗工費時。RAID 內安裝2、4、8、16…..多台硬碟,透過 Array Controller 再將多台硬碟組成一台大容量的『虛擬儲存體』RAID讀寫為了提高『讀寫快速』,其讀寫原理是將『檔案分成數量龐大的段』平均寫入各硬碟內,例:一支 xls ,可能被切分成 1,000 Blocks,第1 Block 寫入第一台硬碟內,第 2Block 寫在第2台硬碟,第 3Block 寫入第3台硬碟內……如此才可達到『高速讀寫』。說明:一支檔案如用一台硬碟(內為 2磁頭)讀寫時間單位:1,改用 4台硬碟(共8磁頭)讀寫時間 1/4。雖然達到高速讀寫目的,但卻衍生另一嚴重後果,就是因為檔案都不是完整存在單台硬碟內,所以就算為了搶救一支檔案,也須處理所有硬碟內,才可將檔案救出,並完整可正常使用。
我們檢測項目別家是做不到
- 自購『內湖科學園區』140坪廠辦大樓,內建構硬碟原廠同等級的無塵室(Class 100 台積電晶圓廠等級)
PS:市內一般辦公大樓是無法建構無塵室。 - 原廠先進的精密儀器。
- 多位 15年以上,數萬台救援經驗的資深工程師團隊。
- 數10項檢查項目。
- 提供『正式完整的檢測報告』。
搶救RAID磁碟陣列真的是任重道遠
磁碟陣列 RAID是企業用儲存設備,內有企業內多人多部門的重要營業資料,萬一不幸故障,將會嚴重影響企業的運作。本公司 30幾年前即定位專業『企業 RAID 資料救援』,更是當年台灣 IBM、HP……指定『 RAID 資料救援』合作廠商。30年來曾協助,中華電信、工研院、中研院、中科院、主計處、台大計算中心、台灣核能電廠、竹科知名科技公司…….累積數百組 RAID 搶救經驗,更因此成為企業界 RAID 維護管理的諮詢廠商。
搶救磁碟陣列 RAID資料等於搶救企業內眾人資料。工程師任重道遠,壓力之大外人難以想像。因企業客戶的資料非常重要,處理時絕不可失手,所以本公司一定是由 10年以上資深工程師才有權接手。本公司檢測 RAID 是經由 IBM, HP….原廠指導過使用『原廠維護模式』進行檢測,前段作業程序符合原廠檢查標準,再加上資深工程師數百組的豐富經驗,絕對『準確』『可靠』。
我們 如何搶救 RAID資料?
- RAID 組態受損,遺失
- RAID Configuration Fail、Offline
- 磁碟陣列檔案系統損壞
- File system crash
- RAID 重建失敗
- Rebuild Fail
開始搶救 RAID時,工程師ㄧ開始即先設法分析原 RAID Configuration,才可 100% 還原完整 RAID 架構。查明 RAID0、1、5、6、10 組態和最重要的各硬碟順序。接下來是最耗工耗時的『複製硬碟 HDD Clone』工作,就是將所有硬碟先一台一台複製至本公司空白硬碟內,此程序像『打鑰匙』,會 100% 將每台硬碟內所有 Blocks 都複製過來,包含已刪除資料,垃圾,未使用 Blocks。然而一台 3TB HDD Clone 需12h 以上非常耗時,且工程師要全程盯著以防萬一,光這 Clone 就需耗時 2工作日。這時客戶硬碟已是防寫狀態(Read Only) 絕不會更動內部資料。Clone 完成後,接下來工程師將客戶原硬碟取下鎖入保險箱保管,不再使用。工程師所有修補搶救資料工作都在本公司硬碟內進行,這耗時費工程序用意就是保護原硬碟內資料不受破壞。接下來工程師即開始進行人工的修補程序。
- 修補原 RAID Configuration,要求需 100% 完整正確。
- 修補原 File System,RAID則是常見的 Windows Server NTFS,VMWare…..
- 修補客戶指定搶救重要資料夾,如:SQL database…………
- 一一搶救檔案並存入本公司 Storage內。
- RAID 硬碟故障
- RAID 硬碟壞軌
- RAID 硬碟遺失
- RAID HDD Offline
- RAID 組態受損,遺失
- RAID Configuration Fail、Offline
通常 RAID 物理性損壞多數是因為 2台以上硬碟故障導致 RAID 異常。RAID 硬碟有一特性較不為人知,RAID 通常都是 24h x 365天不關機,機件耗損非常嚴重,試算如下: 硬碟都是一分鐘 7,200/rpm, x 60分鐘 x 24H = 10,368,000 轉/天。
一年下來不關機,內部金屬機件不可能完全無耗損。
所以使用 RAID 要有觀念,就像一列『高速列車』又滿載資料,24h 高速行駛不休息,風險極高。
所以要勤做『備份資料』,並時常關機檢查維護。
- RAID 故障硬碟一定先進『無塵室』一一拆開細部檢查,絕不可通電,因會磨損磁片。
- 工程師設法取出磁片上未磨損可用 Blocks,並存至本公司空白硬碟內保存。
- 當每台故障硬碟可用 Blocks 都已收集。
- 工程師設法修補原 RAID configuration,原架構需 100% 修補完整且正確。
- RAID則是常見的 Windows Server NTFS、VMWare…..
- 修補客戶指定搶救重要資料夾,如:SQL database…………
- 一一搶救檔案並存入本公司 Storage內。
RAID資料救援 ー 注意事項
先查出磁碟陣列 RAID種類?RAID0、RAID1、RAID5、RAID6、RAID10....?
因為 NAS也有 RAID功能,雖然屬於 Linux “mdadm” Software controller RAID,和傳統伺服器 Server 的 Hardware Controller RAID 效能不同,但 RAID種類的幾乎相同,所以本篇 RAID 種類,涵蓋了 NAS和傳統伺服器 Server RAID 原理。
RAID資料救援前須先查明『RAID 種類』,因為 RAID 是『多人多工』資料儲存設備,設定較複雜不像 PC 單純,RAID 新購時多數是廠商協助架設完成後就一直使用到發生故障,平常沒事不會隨便去亂動 RAID。所以本公司會常遇前來 RAID資料救援的客戶,故障 RAID的種類到底是 RAID5 or RAID5+1、RAID6…..?都不清楚的困境,此時就是考驗 RAID救援工程師的技術能力,資深的 RAID工程師,會先查共安裝多少台硬碟來判斷 RAID種類,其實不難:
RAID0 — 通常是2台硬碟組成,如是安裝 1TB硬碟,架構為 1TB+1TB = 2TB的 RAID0,各位有無發現 RAID0 致命的風險?RAID0 是將一支檔案『平均分散』寫入 2台硬碟內,第一台硬碟只有 ½,第2台硬碟是另一 ½ ,所以只要當任何一台硬碟故障,RAID0 容量就 ≠ 2TB,RAID0 就出現『損毀 Fail』狀態,RAID0 損毀的風險是單台硬碟的 2倍,建議盡量不要建構 RAID0 使用,如只有 2台硬碟時,建議改建構成 RAID1 但還是要勤做『資料備份』。
雖然有時偶而會有 3、4台硬碟組成 RAID0,但實務上不多見。用 3台硬碟建構 RAID0時,只要其中任何一台硬碟故障,RAID0 就損毀,風險是單台硬碟的 3倍。建議既然有 3、4台硬碟就改建構成 RAID5 or RAID5+1,效能、安全性更佳。
- RAID0 無『容錯』功能,損毀風險是單台硬碟的 2、3..倍,當任何一台硬碟故障,RAID0 就損毀,資料無法正常讀寫。非常不建議使用 RAID0。
RAID1 ー也一定是 2台硬碟組成,如安裝 1TB硬碟,架構為 1TB+1TB = 1TB的 RAID1,俗稱 “Mirror” 但我認為 “Duplicate” 較適用。 就像照鏡子時是『 100% 完全相同』,原理是資料『同步』寫入2台硬碟內,每一支檔案都是 100% 同步寫入這 2台硬碟內,第一台硬碟是 100%資料,第 2台硬碟也是 100%資料。萬一當其中一台硬碟故障時,另一台硬碟內還有一份 100% 完整的資料,所以 RAID1 容許故障一台硬碟還可正常讀寫。RAID1 有時會被外界也當作是一種『備份』方式,但本人不建議當成備份使用,原因是 RAID1 的2台硬碟,新購時一定是相同廠牌、相同機種、所以壽命也相同,使用時耗損也相同,萬一當其中一台硬碟故障時,另一台也撐不久。
- RAID1 容許硬碟故障一台,會出現 Defrag,但資料還可正常讀寫。但風險不只 ½ ,見上述說明。
其實不論 RAID是哪一種類 ,RAID安裝的硬碟都有這個風險,使用 RAID 勿以為『容許硬碟故障幾台』就忽略了資料備份。
RAID5 ー 硬碟數量一定需 3台以上,如安裝 1TB硬碟,架構為 1TB+1TB+1TB = 2TB的 RAID5。當故障一台硬碟時,RAID5 容量還是 = 2TB,所以 RAID5 是容許故障任何一台硬碟還可正常讀寫。RAID5 的運算原理較複雜,在此只簡略說明:
- RAID5 ,先用 3台硬碟組成 RAID5 架構說明,RAID5 是將檔案『分段、分散、同步』寫入所有硬碟內,但每台內有 ⅓ 的空間是提供給 RAID5 儲存『容錯運算後的資料』,而這 3個 ⅓ 的資料,是不顯示出來給 User 使用,是被保護無法讀取,所以 User 端只會看到 2TB 的容量,這用意就是 RAID5 容許故障一台,雖出現 Defrag,但還可正常讀寫。
- RAID Rebuild 重建,當 RAID5有一台硬碟故障更換一台新硬碟後,可啟動『重建 Rebuild』功能,Rebuild 運作原理就是自正常的 2台硬碟內取出資料加以『重建運算』後的資料,邊讀邊運算再寫入新硬碟內,而且是和原故障硬碟內資料 100% 完全相同,等於『還原』。
- 重建後的 RAID5 又恢復回到 3TB原狀,又可容許故障一台硬碟。
RAID5+1 ー 硬碟數量一定需 4台以上,如安裝 1TB硬碟,架構為 1TB+1TB+1TB+1TB = 2TB的 RAID5+1。這 “+1” 這台,其實只是『空白硬碟』用意是『當有硬碟故障時,立刻自動 Rebuild』,不必等 User 再去找到新硬碟才 Rebuild。
外界有一誤傳『RAID5+1 容許故障 2顆硬碟』,其實不正確,4台硬碟有一台未 Rebuild 前還只是空白硬碟,還是只有 3台硬碟有資料,
- 如 2台故障硬碟都是有資料的硬碟, RAID5 即損毀。
- 如故障是 1台有資料硬碟和 1台空白硬碟時,RAID5 還有2台有資料硬碟,雖然出現 “Defrag” 但還是可正常讀寫。
所以 RAID5+1 正確形容應是『容許故障一台,但不容同時故障 2台有資料硬碟』。
檢查 RAID硬碟
當查出 RAID 種類後,接下來就是檢查已故障硬碟受損程度,RAID 因為都是 24h 不關機長年運轉,硬碟磨損一定非常嚴重,工程師都不再對硬碟通電,擔心磁片磨損的更嚴重,都是直接進無塵室,將硬碟拆開檢查內部機件問題,這一關非常重要:
搶救 RAID硬碟資料
如硬碟資料有機會救,工程師則開始準備儀器設備,並擬出搶救程序,這場面有點像『開刀房搶救病患』。依據多年經驗,只要硬碟磁片未嚴重磨損,資料都有機會救出,只是擔心搶救出來的資料不是客戶最重要的,反而最重要的資料(檔案)已遭損毀沒救出來,這些問題無法事先得知,不救不知道,救了才知道。就像重症患者開刀,不開刀無法治病,但開刀後才知道醫治程度。
- 先搶救 RAID 的一台一台故障硬碟內資料。
- 因為 RAID資料是分散儲存在所有硬碟內,最後需將原 RAID Configuration 修補完成,RAID 資料才完整才可正常使用。
結論
RAID資料救援是很複雜的技術,加上又幾乎都是硬碟壞 2顆以上,絕非一般人有能力處理,搶救 RAID 資料的必備條件:
- 需熟悉 RAID 架構、資料儲存原理…..
- 需有先進的『硬碟原廠等級無塵室』
- 需備有『原廠精密儀器、設備』