サーバ管理 リストア(復元)について
To restore the server
「nexia サーバ運用マネージメント サービス」では、規模や運用スタイルによって、マネージメント内容・作業内容は個々色々です。しかし、システムやサーバのバックアップ作業は非常に重要で、すべてのお客様へできる限り「サーバ バックアップ」のプランニングをお勧めしています。
サーバ バックアップのプランは、運用スタイルよってケースバイケースですが、お客様のリスク価値に基づいてご提案しています。バックアップの内容については、【サーバ管理 バックアップ運用について】をご覧頂くとして、ここでは私たちネクシアのサービスの一つである「サーバ運用マネージメント サービス」の特色の一つである「リストア(復元)」を取り上げます。
【バックアップ データ】 の保管
いざシステム障害時にデータ復旧やOS(オペレーティング・システム)復旧の必要があるケースで、「バックアップ データ」が壊れていては身も蓋もありません。「バックアップ データ」の保存管理の注意や安全性を保つことが必要です。
【バックアップ データ】 管理ポイント
- 複数のストレージ拠点にリスク分散
- 分散したバックアップデータが同一なものか、ハッシュ値にる比較
- バックアップデータのセキュア(安全)に維持
- 当社のストレージ保管だけでなく、サービス形態によって、バックアップデータをお客様の元へ定期的にお届けしているサービスもご提供
DVDメディア, HDDなど (データ流出防止として暗号化の対策済み) - データ保管ストレージの定期的なチェック「ファイル整合性テスト」「ディスクの物理テスト」
【バックアップ データ】による復旧作業のシミュレーション
弊社では実際の【バックアップ データ】をつかって、システム復旧のシミュレーション・実作業を行っています。まずはサーバシステム全体のリストアからスタートして、OSが起動することの確認からはじまり、デーモンやサービスの正常起動・稼働の確認を行います。ケースによっては個別のデータ・リストア(例えば データベースやコンテンツ)を進め正常に復旧していることを確認します。
これはシステム・サーバの重要度や優先度、または構成内容によって異なりますが、すべてのサーバ・システムを対象に定期的なスケジュールで行っています。定期的なスケジュールとは、1ヶ月~3ヶ月単位などマチマチですが、弊社スタッフ内では、ほぼ毎日どこかのシステムを復旧検証しているほど平時な業務となっています。
OSレベルから復旧するので、代替のサーバ・ハードウェアや仮想エミュレータ上で復旧シミュレーションを実行しています。また、復旧作業には検証ポイント掲げ、目標を持って作業しています。
バックアップ リストア作業 検証ポイント
- 「バックアップ データ」により正しく復元できるか、「バックアップ データ」検証チェック
- 代替サーバ機器を用いてリストアすることにより、実際のお客様サーバでの障害発生で弊社の用意したハードウェアで一時的な代替が可能か検証
- 障害発生を想定した「復旧作業の手順」の洗い出しや「復旧時間」の見込みを事前に想定
- 常に改善を意識し、修復作業の「確実性向上」と「時間短縮」及びこれらの改善を意識した「手順書の改良」
また、「バックアップ データ」からのリストア作業以外に、以下のようなシミュレーションも検証しています。
リストア作業以外 検証ポイント
- 個別のデータやデータベースを意図的に破損させ、その症状を確認すると共に、障害復旧のテストと手順確認
- 実稼働の本サーバでテストできない、テスト要素を含めたプログラムの実行テスト
- テストサーバ環境がないシステム構成でのアプリケーション変更・バージョンアップの検証
- 「セキュリティ パッチ」などのアップデート実行の事前テスト
- ハードウェア障害での、故障箇所を特定することや、部品交換などの実作業のシミュレーション
これらの復旧シミュレーション実作業とは別に、システム障害発生を想定した「お客様への連絡」「機器ベンダーや関連業者へのアプローチ」などシミュレーション訓練も定期的に行っています。
これは、仮想的に具体的なシステムがダウン(サービスダウン含む)を設定していて、より具体的な対処をシミュレーションしています。
ネクシア社内に対して
これらリストアや復旧作業のシミュレーション作業は、もちろん「お客様へより良質なサービスを提供すること」を目的としていますが、私たちネクシア内での位置づけとして以下のメリットがあると考えています。
ネクシア社内のターゲット・ポイント
- 日頃から行うことにより、突発的な対応を冷静にできるための訓練
- 復旧作業に対して、問題発生の要因や原因などの社内共有
- スタッフそれぞれが、お客様担当以外でも対応できる環境の共有
- 実稼働サーバでできない、コアな改良テスト
- 新人を含むスタッフ教育環境としての実稼働を想定した仮想環境
障害を意識したサービス
「nexia サーバ運用マネージメント サービス」 は、サーバダウンやサービス停止などのシステム障害については、常に安全性と安定稼働を意識した改善を行いつつ、OSやデーモンサービスなどのチューニング, カスタマイズにより改善していくサービスでもあります。そのチューニング, カスタマイズには検証する環境が必要です。そのためにもこの様な「バックアップ リストア」作業のシミュレーションは不可欠あると考えています。
もちろん、データ損失やサーバが起動しない障害が発生しないことが一番ですが、私たちの経験上「絶対に起こらない」と断言できません。そこで私たちのサービスは「システム監視」「アプリケーション インストール作業」だけの「運用管理サービス」ではなく、障害を意識したサービスと体制、そして技術を提供いたします。
インターネット・社内ネット問わず、またサーバだけでなくWindowsクライアントのパソコンなどの「バックアップ サービス」も提供しています。ご興味がございましたら是非お問い合わせください。