システム障害を想定したBCP訓練
システム障害を想定したBCP訓練についての記事があったので見てみましょう。
この記事では記者がアンケートの回答者に連絡を取って訓練の内容を聞き出しています。
システム障害もたびたび起こるものではないし、起こらないように工夫をしているはずなではありますが、起こった際に毎回あたふたするのもまずいので、防災訓練に引っ掛けて障害復旧の訓練をしています。
抜き打ちで訓練を実施していますが、業務への影響を抑えるため夜中の3時に行っています。手順書通りの復旧のはずが、なかなかその通りに行かなかったり、想定外の手順が入ったりと、見直しの良い機会になったとのこと。
別のケースでは、ソフトウェアのライセンスキーの問題が発覚しています。ソフトウェアを別のシステムで再インストールする際、本番システムのキーを一旦無効にしないと、上手くできないというものでした。こういうのはやってみないとわからないかもしれませんね。
その他色々な経験があったようですが、システムは一旦組んで動き出したら下手に止めない方が安全で、正月休みなど電源を落として休み明けに電源を入れるとディスク障害が顕在化するのなど、触らぬ神にタタリ無しではないですが、あまり変なことはしたくないものです。
よってシステムの再インストールのような作業はめったにやる機会も無いので、いざ災害や障害が発生して、やることになったら、そのとき色々勉強するという事態になりかねません。
私はアメリカのBCサービス専業者のSunGard社を見に行ったことがありますが、データセンタに毎日色んな企業が訓練のために訪れて、システム復旧のテストを行っています。初めは皆失敗し、回を重ねるにつれ段々改善していくそうです。
やはりきちんと時間をとってやってみないといけませんね。
最終更新時間 09:10 | コメント (0) | トラックバック
システム障害とBCP
最近システム障害でBCPの重要性が語られるようになりました。
BCPと言えば、やはり地震による大規模災害を想定して備えようということが多いかと思います。しかし、最近のニュースでの取り上げられ方を見ていると、滅多に起きない地震よりも社会インフラ化している情報システムの障害の方がよく目にする気がします。
BCPの基本は、原因に寄らず業務を停止せざるを得ない状況が起こることを前提に計画を立てて備えておこうというものなので、地震以外のケースも当然入ってきます。
地震との大きな違いは、元は自分だけが緊急事態に陥っていたのが、他人にも大きな影響が出てしまう、システム障害の場合、一般的には比較的短期間で復旧すると言うことでしょう。
対策本部の設置、メディアへの対応など事後の対応は共通するところが多く、また本当に最悪の事態に備えて、マニュアル作業や代替手段への切り替え準備も同時並行して始める必要もあります。
米Gartnerの企業の事業継続管理(BCM)と災害復旧(DR)プログラムに関する調査結果によると、企業の60%近くは機能停止期間を最大7日までしか想定していないことが明らかになったとあります(対象:米国、英国、カナダ)。
その中では、災害の影響が1週間を超えて続いた場合、売り上げ・評判・ブランドがマイナスの影響を受ける可能性があると指摘しています。
より慎重なBCM/DRプログラムでは、最低でも30日の機能停止を想定しているそうです。
災害の要因としては、「停電または火災」、洪水またはハリケーンといった「自然災害」がトップですが、「IT機能の停止」、「コンピュータ・ウイルスによる攻撃」、「テロ」、「サービス・プロバイダ側の障害」などにも備えているとのこと。
ハードウェア障害に備えて十分な冗長性を持たせた構成を組んでいる企業は多いと思いますが、運用ミス、バグ、ネットワーク障害、他の企業システムからの影響などソフトウェアやその他の要因でも十分IT機能の停止に追い込まれることはありえます。
これらを完全に予防することは不可能なので、やはり起こることを想定してBCPを組んでおくことも大事ですね。










