RAIDストレージにてリビルドを失敗させないために
RAIDとは? RAIDレベルについて
RAIDとは複数のストレージ(ハードディスク)を組み合わせて1台のストレージとして運用する技術のことで、冗長性を向上させ信頼性・可用性を高める目的で、主にサーバ機器に実装されるストレージシステムの事です。
RAIDにはいくつかレベルが存在しますが、一般的には以下にあげるレベルが主な活用レベルだと思います。
- RAID 1
- ストライピングと呼ばれるもので、複数台のハードディスクにデータを分散して読み書きさせてアクセス速度を高速化したもの。デメリットは冗長性がないため障害対策もないため信頼性を担保するのではなく、単にストレージ性能を高速にしたい目的で使用します。
- RAID 2
- ミラーリングと呼ばれているもので、複数台のハードディスクに同じ内容データを書き込み、冗長性と信頼性を高めたもので、同じコピーを複数台のハードディスクに保存するということで、サーバ用途で多く使われています。1台のハードディスクがクラッシュした場合でも、もう一台が稼働するためデータを担保できるというものです。これは同時期に2台のハードディスクが故障する可能性が低くサーバなどのシステムが稼働しつづける事を意味します。これを故障率といい、RAID1構成で3台4台と同時に書き込みする台数を増やせば故障率は低減します。一般的には2台構成のRAID1レベルで十分とされています。
- RAID 5
- 障害耐久性の向上とアクセス速度の高速化、そしてストレージの大容量化を実現する目的の技術で、ハードディスク故障の際に内容データを修復するコード(パリティ)を全ディスクに分散保管するのが特徴です。RAID5は3台以上のハードディスク構成が必要で、3台のうち1台が故障した場合でも稼動し続け、故障ハードディスクを交換したのち修復することができます。データの読み出し速度は高速ですが、書き込みは低速です。
- RAID 10
- RAID 0+1 とも言います。RAID 0とRAID 1を組み合わせたもので、ミラーリング+ストライピングとも言います。高速化や大容量化のRAID 0と高い信頼性を求めたRAID 1双方の特徴を持ち高い冗長性を担保したものです。弊社ではデータベースサーバや高速ストレージシステムに採用しています。
RAID構成で壊れたハードディスクを入れ替えて内容データを元に戻す作業の事をリビルドと言います。ちなにみRAID構成を初期化または再コピーの作業をイニシャライズと呼びます。
RAID5のリビルドで誤った作業によりデータ損失を防ぐ
さてここからがこの投稿の本題です。RAID 5は3台以上のハードディスクを組み合わせて、そのうち1台が破損や故障しても残りのディスクから内容データを再現できる構成レベルですが、この壊れた1台を入れ替えて元の健全状態に戻す作業もリビルドと呼びます。
最近のホームユース向けNAS(ネットワーク・ストレージ)製品でもRAID 5が普及していて、サーバ用途だけの技術ではないのが近況です。このRAID5リビルドは製品のマニュアルでも説明されている作業ですが、リビルド作業を間違ってしまうと、データ全体をロスト消失してしまうケースが多々あります。この作業の誤りや危険性について少しふれます。
ハードディスクの構成順やRAIDレベルの変更をすると大被害になる
- 本来故障となっていないハードディスクを取り外して交換してしまった
- 誤ったオペレーションでRAIDレベルを違うタイプに変更してしまった
このようなケースでは、ストレージデータを完全に消失してしまいます。十分に気をくばり慎重に作業することが重要で、慌てないでリビルド作業することが一番です。ではどのような事に気をくばればよいでしょうか。
- バックアップ
- 作業前にバックアップを行い、データを退避させておきデータの安全性を担保しておく。できればバックアップ・アーカイブの健全性を確認すること。
- 故障障害ハードディスクのシリアルをメモする
- ハードディスクには製品番号と一意な製造シリアル番号が存在します。RAIDのマネージメントアプリケーションなどで故障ハードディスクのシリアル番号を控え、間違えを防ぎましょう。またRAIDマネージメントアプリケーションにて、ハードディスクを識別させるためにLEDを点滅させるなどの方法があれば、このような作業で故障ハードディスクのスロットルを認識しておきましょう。
- ストレージやシステムを停止して行うことが望ましい
- ストレージを稼動させながらハードディスクの交換することをホットスペアといいます。サーバ機器ではストレージ交換を稼働中に作業できる物が多いのですが、故障していないハードディスクを抜いてしまうなどのミスが起こり得ます。そこで作業に自身が無い方は、ストレージやシステムを停止して行うと安心ではないでしょうか?
- リビルド中では余計な負担をかけない
- リビルド実行中に電源ダウンなど不意なシステムダウンは禁物です。RAID5は修復する際に利用するパリティ情報が複数台のハードディスクに分散しています。このためリビルド中はストレージに負荷のかかる処理は避け、できるだけストレージアクションのあるアプリケーションは止めておきましょう。
- 焦らず落ち着いて
- 一番大事なことは焦らず落ち着いて作業することです。リビルド前に交換した新しいハードディスクの認識状態のチェックやRAIDマネージメントアプリケーションの各項目をじっくり確認して行うべきです。「交換したはずのハードディスクが認識しない」などの症状があっても、落ち着いて何度もやり直してみてください。かえって余計な処理実行をすると取り返しがつかない恐れがあります。
RAIDストレージの復旧失敗
ハードディスクの障害発生の確率は、5年目から高まる傾向と言われています。実際に弊社で運用マネージメントをお任せ頂いているシステムでもこの傾向が顕著にあります。そのことから5年近いRAID構成のストレージでは、障害のあったハードディスク以外にも問題が発生いしている場合があります。この場合リビルドが失敗し、全データ消失することも考えられます。万が一のことを考え、バックアップまたはデータ回避は必ず行っておきましょう。
この投稿は弊社スタッフに対しても、「RAIDリビルド作業における注意点」を再認識を促すことも踏まえて書いてみました。