由于(At)技術的(of)不(No)斷進步,不(No)同型号的(of)服務器出(out)現RAID 5故障後,處理方法也不(No)同。
現在(exist)大(big)型應用(use)程序的(of)網絡拓樸結構,一(one)般都采用(use)C/S結構或B/S結構,至少需要(want)一(one)台裝有大(big)型數據庫的(of)服務器安放于(At)中心機房。基于(At)對服務器安全性與可靠性的(of)考慮,通常會對服務器的(of)磁盤采用(use)磁盤陣列RAID(Redundant Array of Inexpensive Disk)進行磁盤冗餘備份。其中RAID 5陣列級别爲(for)無獨立校驗磁盤的(of)奇偶校驗磁盤陣列,采用(use)數據分塊和(and)獨立存取技術,能在(exist)同一(one)磁盤上并行處理多個(indivual)訪問請求,同時(hour)允許陣列中的(of)任何一(one)個(indivual)硬盤出(out)現故障。
實際應用(use)中,由于(At)某些不(No)可避免的(of)客觀原因,可能會造成一(one)些陣列故障。最常出(out)現的(of)狀況就是(yes)硬盤自行脫機,聯機狀态顯示爲(for)DDD(Defunct Disk Drive,無效磁盤驅動器),硬盤出(out)現物理故障或邏輯故障。如果是(yes)物理故障,隻有進行硬盤更換;如果是(yes)邏輯故障,可以(by)通過有針對性的(of)技術修複,恢複硬盤的(of)在(exist)線狀态,繼續保持其原始陣列中的(of)硬盤數據條帶化分布狀态,延續數據存儲體系的(of)一(one)緻性。
但是(yes),對HP的(of)一(one)些老服務器(如HP LH6000)數據的(of)恢複與新服務器(如HP ProLian系列服務器)的(of)數據恢複是(yes)不(No)同的(of)。所以(by)不(No)同的(of)服務器對RAID 5故障的(of)處理也是(yes)不(No)同的(of)。曾接觸過兩台服務器因意外斷電而造成的(of)RAID 5陣列卡數據故障,由于(At)采用(use)了(Got it)不(No)同的(of)策略而解決了(Got it)問題。
故障修複
一(one)台是(yes)HP LH6000的(of)服務器,4塊18GB的(of)硬盤做成RAID 5磁盤陣列,其陣列卡是(yes)NetRaid;另一(one)台是(yes)HP ProLian ML370服務器,4塊146GB的(of)硬盤做成RAID 5磁盤陣列,其陣列卡是(yes)Smart Array 642并帶有熱備份硬盤(Hot Spare)。兩者操作(do)系統都爲(for)Window 2000,數據庫是(yes)Server 2000。
HP LH6000的(of)故障如下: 一(one)塊硬盤紅燈閃亮,機器還在(exist)正常運行,但沒有多久,系統就不(No)能正常運行,這(this)時(hour)才發現另一(one)塊硬盤的(of)紅燈也在(exist)閃亮。
解決辦法如下:
1.啓動服務器,自檢至陣列時(hour)按Ctrl+M進入NetRaid管理程序。查看陣列信息,發現硬盤狀态爲(for)Failed,運用(use)修改配置将一(one)硬盤強行設置成OnLine。重新啓動服務器,在(exist)進入系統前的(of)硬件自檢時(hour)無效,啓動失敗。
2.啓動服務器,自檢至陣列時(hour)按Ctrl+M進入NetRaid管理程序。選擇磁盤陣列,将原來(Come)OnLine挂起來(Come)的(of)硬盤手工Fail掉,然後再把另一(one)塊Failed的(of)硬盤手工設置成OnLine,重新啓動服務器就可以(by)進入系統了(Got it)。
3.查看系統及數據庫都運行正常後,再進陣列配置工具把Failed的(of)硬盤手工設置成Rebuild,100%完成重建後再重啓服務器,所有的(of)陣列及系統都恢複原狀了(Got it)。
另一(one)台運行ERP系統的(of)服務器(HP ProLiant ML370),由4塊146GB熱插拔硬盤通過RAID卡(Smart array陣列卡)配置成一(one)台具有RAID 5級的(of)磁盤陣列。其中一(one)塊硬盤在(exist)運行過程中突然出(out)現故障。服務器RAID 5自動啓用(use)熱備份硬盤(Hot Spare),對損壞硬盤進行邏輯替代。整個(indivual)硬盤的(of)數據訪問任務仍然完整地(land)運行在(exist)原來(Come)的(of)讀寫進程序列中,應用(use)程序和(and)數據庫沒有發生(born)影響。
通過HP自帶的(of)ACU工具查看硬盤狀态進行檢查,發現紅燈示警的(of)硬盤處于(At)脫機狀态。如果HP ProLiant服務器中的(of)Raid 5有兩塊硬盤出(out)現亮紅燈時(hour),表明系統已經崩潰,數據庫也就不(No)能訪問,但系統不(No)會自動關機。當第二塊硬盤亮紅燈後,用(use)常規的(of)手段是(yes)不(No)能恢複數據的(of),隻有付費找專業的(of)第三方數據恢複公司恢複數據。
因此,對惠普老型号HP LH6000系列服務器來(Come)說,陣列的(of)設計方面與現在(exist)HP ProLiant系列服務器的(of)陣列有很多不(No)同。就操作(do)方法看,HP LH6000服務器的(of)陣列操作(do)方法有很多可選項,包括陣列失敗後可以(by)重新删除陣列并重建等,初始化也是(yes)手工選擇的(of)。但是(yes)HP ProLiant系列服務器陣列的(of)初始化是(yes)在(exist)配置陣列後自動在(exist)後台執行的(of),所以(by)ProLiant系列服務器在(exist)陣列出(out)錯後是(yes)不(No)能重配陣列的(of)。
HP LH6000服務器會因其他(he)意外的(of)原因導緻陣列中的(of)磁盤出(out)現掉線現象,可讓維護人(people)員手工選擇用(use)Online或Offline、Rebuild等來(Come)恢複數據。但是(yes)現在(exist)的(of)HP ProLiant系列服務器在(exist)陣列中不(No)會再出(out)現像老的(of)服務器那樣有磁盤掉線的(of)現象,所以(by)硬盤亮紅燈的(of)時(hour)候,這(this)塊硬盤基本上是(yes)損壞了(Got it)需要(want)更換。當然可以(by)選擇熱插拔硬盤來(Come)重建(Rebuild),看硬盤還能不(No)能再用(use)一(one)段時(hour)間。
做好技術後備
從以(by)上兩個(indivual)例子可以(by)看出(out),同一(one)品牌、不(No)同系列的(of)服務器因其内含技術的(of)不(No)同,其Raid 5磁盤故障的(of)排除也是(yes)不(No)同的(of)。但經過重建(Rebuild)數據後,數據被拯救了(Got it),從中可以(by)得出(out)以(by)下經驗:
我(I)們(them)認爲(for)任何先進的(of)技術手段都不(No)是(yes)萬無一(one)失的(of)。如果要(want)确保數據安全,就一(one)定要(want)做好備份工作(do),最好每天做一(one)次數據庫的(of)異地(land)備份。至少備用(use)一(one)塊新硬盤。需要(want)指出(out)的(of)是(yes),加入陣列的(of)硬盤必須大(big)于(At)或等于(At)故障硬盤的(of)容量。
如果條件允許,推薦“RAID 5+熱備盤”的(of)陣列創建方案。這(this)樣在(exist)數據丢失前,我(I)們(them)有兩次更換硬盤的(of)機會。對于(At)一(one)般的(of)應用(use),隻用(use)RAID 5即可,可以(by)同時(hour)提供數據的(of)存取性能、可靠性和(and)最大(big)的(of)磁盤空間。
管理員必須經常觀察陣列的(of)狀态,包括查看磁盤陣列的(of)黃色警告燈和(and)管理軟件裏的(of)驅動器狀态。出(out)現故障,及時(hour)排除。無論是(yes)什麽級别的(of)陣列,在(exist)排除故障前,都應做好數據備份。