seraphyの日記

日記というよりは過去を振り返るときのための単なる備忘録

RAID-1にする。

バックアップをしようと思って、まずはウイルスのフルスキャンをかけつつMediaplayerで音楽を聴いていたらスキャンが後半に入ったころ、突然、音とびが繰り返されるようになり、そのうち、マシンが応答しなくなる。…ハード障害。
リブートすると、2回に一回はRAID-0が認識できなくなり、よせばいいのに原因を見極めたくて何度かためしているうちに、とうとう、まったく認識しなくなってしまう。
うまく動いているうちに逃がせばよかったよ、とすこし後悔。でも、こんな状態でデータが正しいか分からないものを逃がしても禍根をのこくだけかもだし。ま、仕方ないか。

RAID-0は故障率が2倍になるというデメリットがあることは分かっていた。しかし、定期的なバックアップをしていれば被害は最小になる、とふんでいた。甘かった。バックアップは履歴を残すメリットがあるが、毎時履歴を残さない限りアーカイブログのかわりにはならない。
心を入れ替えてRAID 0+1にしよう、と思う。もともと金さえあれば、そうしていた。ディスクが4つ必要ということだけでなく、今のケース(筐体)では、いろいろはずさないと入らない。
だか、決意した。最近つかってなかったPCMCIAと、CD-RをやめてDVD+RWにしてから出番のなくなっていたDVDドライブを外す。
T-Zoneでディスク3台かってきて、ここに新規に2台のドライブと、認識しなくなったドライブを交換。いざ、RAID 0+1を構築開始!

しかしフォーマットに異様に時間がかかる。20%、40%、80%の位置で異様にリトライを繰り返して時間を浪費しているようだ。RAIDマネージャもけたたましいビープ音をならして障害を報告する。
どーも両方のドライブが破損していたよう。
こうなったら4台ともすべて新しいドライブにするという案もありかと思ったが、どうやら発熱も結構なものだと気づき、やや不安。改めて考えて、0+1である必要性があるかも疑問。
急遽予定変更で、RAID-1にすることにした。
RAID-1は完全冗長で容量は1/2、書き込み速度はx1だが、読み込みはRAID-0と同じストライピング。読み込み処理が大半を占める用途での速度の低下はさほどでもないだろう、と踏む。
いままで60GBytesx2の120GBytesの容量だったが、これで80GBytesに低下する。しかし、もともと60GBytesほど余っていたのだから、足りなくなることは無いだろう。
残り1台はRAID-1のホットスタンバイに割り当てる。

RAID-1にしたからには、あらかじめ、障害発生時の手順を確認しておく必要があるだろう。
ためしに片方のディスクを外して立ち上げてみる。
起動時にRAIDが障害を検知し、自動的にホットスタンバイ・ディスクにduplicateをはじめる。
おわるのに2時間ぐらいかかりそうだったのでキャンセルし、シングルでOSの起動をさせる。
今度はOS上でRAIDマネージャがHotStandbyにDuplicateするか問い合わせてくる。
なるほど、これなら不慮の事故で一方が破損しても、なんとか継続できそうだ。

しかし、おそらく万全ではないだろう。RAID-0で2台のディスクが一緒に破損していたことを考えると、筐体という、ほぼ同じ環境下にあって、ほぼ同一のロットで製造されたとおもわれる2台が、ほぼ同時に故障するということは、ありえなくも無い話だ。
あとは、このAdaptecのRAID1200Aという安物のRAIDカードがディスクを壊すような処理をしていたという疑いもないわけでもない。
しかし、バックアップをとるぐらいの猶予はあたえてくれるのではないか、などと期待する。

バックアップの頻度を見直す必要性も感じた。
そういえば、最近、CVSリポジトリを別サーバーに移動した最初のSynchronizeで間違えてコミットではなくアップデートしてしまい作業が全滅して青くなったことがあった。これは、幸い、Eclipseのローカルヒストリに残っていて無事事なきを得たが、このときほど「アーカイブログ」のありがたさを認識したことは無い。Eclipseを使い始めたことは、ローカルヒストリなんてディスク容量を浪費するだけじゃないのか、などど思っていたが、これは「積極的な冗長さ」だったわけだ。

すこし痛い経験だったが、バックアップ、冗長化アーカイブログ(ジャーナル)の重要性について、まさに身にしみて体得できたように思う。

Ontrack*1
DATA Advisorという無償のツールがディスクの異常を早期発見してるれるよう。
http://www.ontrack-japan.com/software/dataadvisor/
でも、うちのAdaptec ATA RAID 1200Aでは正しく動作しなかった。(一応認識したが容量がデタラメ。不安になったのスキャンはしなかった。)
壊れたディスクよりも古いLinuxマシンに使っているディスクを検査させてみると、どこも異常なし
だった。まあ、壊れたほうは24時間稼動させてたから稼働時間の問題かも。

*1:Ontrackは有償でデータのサルベージをやってる会社のようだ。個人なら20万ぐらい?。水没しても「絶対に乾燥させたりせず、すぐに濡れタオルにくるんで送れ」とある。