揚州服務器恢復成功
瀏覽量: 次 發布日期:2019-01-07 23:58:05
揚州某企業,ibm 3650m4 服務器,故障燈報錯,服務器無法啟動檢測后發現硬盤報錯,5塊300g sas盤有兩塊報錯。
檢測結果:服務器使用win2008 系統,用于公司數據庫和文件服務器,0號和3號硬盤報錯,5塊盤組raid5,無熱備。
恢復結果:兆柏工程師檢測后發現,3號硬盤最后損壞,直接檢測3號盤,發現有大量壞道,使用pc3000 sas修復后數據恢復正常。然后更換硬盤后將數據回寫后,系統啟動正常,客戶非常滿意。

1、磁盤陣列處于降級狀態時未及時rebuild磁盤陣列:
RAID磁盤陣列的數據安全冗余原理是利用空余出的部分空間實現的,當陣列中有成員盤下線后便無法繼續提供冗余存儲。如果此時未能及時更換新磁盤并rebuild整個卷的話一旦raid陣列中其他成員盤發生離線行為將導致整個raid卷無法工作,這也是在數據恢復工作中遇到較多的故障類型。
2、raid陣列控制器故障:
控制器在磁盤陣列中充當著操作系統與物理硬盤之間的鏈接紐帶,并且每組不同的磁盤陣列中的硬盤數量、容量大小、raid級別、校驗方式等raid信息都各有不同,這些信息有的存儲于硬盤,有的存儲于陣列卡或者二者都有存儲。如果控制器出現故障一般情況下無法進行raid信息的還原,即使能夠還原raid結構再次重建raid陣列也無法進行數據恢復。
3、固件算法缺陷:
RAID的創建、重建、降級、保護等工作在控制器的實現上是非常復雜的算法,當然這里面的復雜更多地是提供盡可能萬無一失的無漏洞算法,盡管廠商不會輕易承認控制器的BUG,但毫無疑問,這些問題在任何一款控制器上都無法避免。因為固件算法上BUG,可能會產生很多無法解釋的故障。比如在部分服務器數據恢復案例中,有一些早期生產的DELL 2950服務器,會有RAID一塊盤OFFLINE后故障盤與報警燈不一致的情況,導致客戶在更換故障盤REBUILD時拔錯盤,整個RAID組崩潰。
4、IO通道受阻導致RAID掉盤:
RAID控制器在設計時為了數據的絕對安全,會盡可能避免寫數據到不穩定的存儲介質上,這樣,當控制器與物理硬盤進行IO時,如果時間超過某個閥值,或不滿足校驗關系,便會認為對應的存儲設備已不具備持續工作的能力,但會讓其強制下線,通知管理員盡快解決問題。這種設計的初衷很好,同時也是正確的設計方式,但對于如物理鏈接線路松動,或因硬盤機械工作時反應超時(可能硬盤還是完好的)等隨機原因對控制器而言無法分辨設備是否具備和之前一樣的穩定狀態,所以很不在意的某些小環節,便會導致RAID卷出現故障,此類故障的發生概率極大,而且無法避免。這也是大多數RAID出現故障后,硬盤并未有故障的原因,我們好多數據恢復服務的客戶會因此質疑服務器廠商,實際上是有苦難言的,一定程度上,越是設計安全的控制器,越會發生此類現象。
5、控制器的穩定性:
RAID的控制器在ONLINE狀態下(無離線盤)工作是最穩定的,相對而言,當部分硬盤損壞(可能是邏輯故障)后離線,控制器便會工作在一個比較吃力的狀態,這也是好多中低端的RAID控制器在一塊盤離線后讀寫性能急速下降的原因。控制器的負載太重便會極大地增加數據吞吐時出現IO滯留的可能性,從而導致如上面第4點提及的RAID離線。一個不具備高速硬件處理芯片,不具備高速緩沖的控制器發生這類故障的概率要高得多。為了避免出現故障后數據恢復帶來的業務停頓與額外開銷,還是盡量不要選擇這類磁盤陣列控制器。
6、陣列中硬盤故障:
多數管理員認為只要正常工作的磁盤陣列中就不會存在損壞的硬盤,因為raid陣列中一旦有硬盤損壞后陣列會踢損壞硬盤下線,然而實際上并非如此。一組RAID卷在工作很長時間以后也很少會讀到物理硬盤的所有磁盤空間,同一時間更是不可能。部分情況下,硬盤會在沒有讀到的區域或者以前讀取是良好的區域產生壞道,這類壞道因為沒有讀寫過,所以在控制器看來是好的。產生這種壞磁道的最直接危害是在REBUILD過程中。當一塊物理硬盤離線后,通常所有的技術人員及官方資料都會寫盡快做REBUILD,但如果其他硬盤存在這類平常不知的壞磁道,REBUILD又都是對全盤做全面同步,就一定會讀寫到那些壞道,這時候REBUILD沒完成,新盤無法上線,因舊盤里又發現了壞道,便會導致RAID又多出一些下線的硬盤,這樣就可能會導致RAID出現故障,無法自行進行數據恢復了。
7、人為誤操作:
涉及數據恢復的數據災難有相當一部分也是可以避免的,例如操作失誤導致誤拔了RAID里的硬盤、更換壞盤不及時、給RAID陣列除塵時忘了原來的順序、不小心刪除了原RAID配置等
檢測結果:服務器使用win2008 系統,用于公司數據庫和文件服務器,0號和3號硬盤報錯,5塊盤組raid5,無熱備。
恢復結果:兆柏工程師檢測后發現,3號硬盤最后損壞,直接檢測3號盤,發現有大量壞道,使用pc3000 sas修復后數據恢復正常。然后更換硬盤后將數據回寫后,系統啟動正常,客戶非常滿意。

1、磁盤陣列處于降級狀態時未及時rebuild磁盤陣列:
RAID磁盤陣列的數據安全冗余原理是利用空余出的部分空間實現的,當陣列中有成員盤下線后便無法繼續提供冗余存儲。如果此時未能及時更換新磁盤并rebuild整個卷的話一旦raid陣列中其他成員盤發生離線行為將導致整個raid卷無法工作,這也是在數據恢復工作中遇到較多的故障類型。
2、raid陣列控制器故障:
控制器在磁盤陣列中充當著操作系統與物理硬盤之間的鏈接紐帶,并且每組不同的磁盤陣列中的硬盤數量、容量大小、raid級別、校驗方式等raid信息都各有不同,這些信息有的存儲于硬盤,有的存儲于陣列卡或者二者都有存儲。如果控制器出現故障一般情況下無法進行raid信息的還原,即使能夠還原raid結構再次重建raid陣列也無法進行數據恢復。
3、固件算法缺陷:
RAID的創建、重建、降級、保護等工作在控制器的實現上是非常復雜的算法,當然這里面的復雜更多地是提供盡可能萬無一失的無漏洞算法,盡管廠商不會輕易承認控制器的BUG,但毫無疑問,這些問題在任何一款控制器上都無法避免。因為固件算法上BUG,可能會產生很多無法解釋的故障。比如在部分服務器數據恢復案例中,有一些早期生產的DELL 2950服務器,會有RAID一塊盤OFFLINE后故障盤與報警燈不一致的情況,導致客戶在更換故障盤REBUILD時拔錯盤,整個RAID組崩潰。
4、IO通道受阻導致RAID掉盤:
RAID控制器在設計時為了數據的絕對安全,會盡可能避免寫數據到不穩定的存儲介質上,這樣,當控制器與物理硬盤進行IO時,如果時間超過某個閥值,或不滿足校驗關系,便會認為對應的存儲設備已不具備持續工作的能力,但會讓其強制下線,通知管理員盡快解決問題。這種設計的初衷很好,同時也是正確的設計方式,但對于如物理鏈接線路松動,或因硬盤機械工作時反應超時(可能硬盤還是完好的)等隨機原因對控制器而言無法分辨設備是否具備和之前一樣的穩定狀態,所以很不在意的某些小環節,便會導致RAID卷出現故障,此類故障的發生概率極大,而且無法避免。這也是大多數RAID出現故障后,硬盤并未有故障的原因,我們好多數據恢復服務的客戶會因此質疑服務器廠商,實際上是有苦難言的,一定程度上,越是設計安全的控制器,越會發生此類現象。
5、控制器的穩定性:
RAID的控制器在ONLINE狀態下(無離線盤)工作是最穩定的,相對而言,當部分硬盤損壞(可能是邏輯故障)后離線,控制器便會工作在一個比較吃力的狀態,這也是好多中低端的RAID控制器在一塊盤離線后讀寫性能急速下降的原因。控制器的負載太重便會極大地增加數據吞吐時出現IO滯留的可能性,從而導致如上面第4點提及的RAID離線。一個不具備高速硬件處理芯片,不具備高速緩沖的控制器發生這類故障的概率要高得多。為了避免出現故障后數據恢復帶來的業務停頓與額外開銷,還是盡量不要選擇這類磁盤陣列控制器。
6、陣列中硬盤故障:
多數管理員認為只要正常工作的磁盤陣列中就不會存在損壞的硬盤,因為raid陣列中一旦有硬盤損壞后陣列會踢損壞硬盤下線,然而實際上并非如此。一組RAID卷在工作很長時間以后也很少會讀到物理硬盤的所有磁盤空間,同一時間更是不可能。部分情況下,硬盤會在沒有讀到的區域或者以前讀取是良好的區域產生壞道,這類壞道因為沒有讀寫過,所以在控制器看來是好的。產生這種壞磁道的最直接危害是在REBUILD過程中。當一塊物理硬盤離線后,通常所有的技術人員及官方資料都會寫盡快做REBUILD,但如果其他硬盤存在這類平常不知的壞磁道,REBUILD又都是對全盤做全面同步,就一定會讀寫到那些壞道,這時候REBUILD沒完成,新盤無法上線,因舊盤里又發現了壞道,便會導致RAID又多出一些下線的硬盤,這樣就可能會導致RAID出現故障,無法自行進行數據恢復了。
7、人為誤操作:
涉及數據恢復的數據災難有相當一部分也是可以避免的,例如操作失誤導致誤拔了RAID里的硬盤、更換壞盤不及時、給RAID陣列除塵時忘了原來的順序、不小心刪除了原RAID配置等
相關推薦
