«

»

1月 04

041システム障害に備え、事業継続を確実にする対策のポイント

事業継続に対しては、災害などの外部からくる脅威だけでなく、企業が持つ重要施設の内部要因による使用不能も脅威となる。中核事業の重要な要素の一つである情報システムにも、ハードウェアやソフトウェアの障害という脅威がある。システム障害への対策のポイントをご紹介する。

□ 情報システムの不稼働も事業継続に対する脅威
金融、消防、医療、鉄道、電気、水道、ガス、通信などの社会インフラ事業者だけでなく、一般企業においてもシステム障害による事業継続の危機が発生することがある。事業の効率化を高めるためにITを高度に利用している生産や物流制御システム、WebシステムやEDI(電子データ交換)による受発注、教育事業におけるeラーニングシステムなど、情報システムが半日でもダウンすると人手によってカバーすることが不可能な分野は数多くある。

□ ITそのものが「壊れやすい」脅威を内在している
ITは業務を効率化、高速化する一方で、ITそのものが「壊れやすい」性質を秘めている。
例えば、ハードディスクはジャンボジェットが時速200kmで、0.5ミリメートルの高さを飛んでいるようなものだ(*1)。衝撃には弱いし、回転する軸受け部分は必ず摩耗するため、一定の割合、時間で故障するのは当然と言える。形あるものは必ず壊れるというが、非常に多数の部品で構成されているハードウェアは「いつか必ず壊れるもの」なのである。
ソフトウェアについても重大な障害に発展することがある。Windowsアップデートなどで良く耳にするバグフィックスの「バグ」とはソフトウェアの不備のことである。テストで発見できずに残ったバグが業務の重要な場面で顕在化して大事故になることもある。「61万円1株売り」とすべき注文を「1円61万株売り」と誤ってコンピュータに入力した注文が取り消し処理にバグがあって取り消せず、400億円超える損害になったという事例もある(*2)。

□ システム障害対策の第一の基本はデータバックアップ 
第一は、データやソフトウェアがなくなってしまわないことを考えなければならない。日々のデータバックアップ取得と、プログラム変更した場合のソフトウェアのバックアップである。1台のサーバーに全てが入っており、ハードディスク障害で全てがなくなるようなことは避けなければならない。少なくとも、別なコンピュータのハードディスク上か磁気テープなどの媒体にコピーして保管しておくべきである。

□ 冗長化が基本
第二は、冗長化を考えることである。壊れて使えなくなる部位が、修理または新規購入までに要する時間を許容できるのであればそれでいいが、サーバーなどの重要機器は、ふつう数週間という不稼働の時間は許容できないはずだ。そこでバックアップ用の機器を用意しておいて、本番用が壊れたら「一定の時間」で代替の運用ができるようにしておくのである。
上の「一定の時間」には必要とされる重要度によって幅があり、ゼロという場合は常に複数の機器が同時に本番稼働している構成をとるべきであるし、数時間以内ということならバックアップ機を用意しておいて、セットアップして立ち上げるような形となる。
冗長化は様々なハードウェア障害時の対応の基本であり、ネットワークについても同様の考え方になるし、PCなど通常多数ある要素についても予備を本部に持っておいて、修理期間中は予備のものを使うというやり方がある。

□ 通常運用の点検と訓練
次に体制を整えるべきは、平時の運用である。大きく二つあり、一つめは、データのバックアップがキチンととれているかどうかを点検することである。データバックアップの取得処理を自動化したはいいが、あるときからエラーになっていて、それに気がつかないようでは「いざ!」というときに使えない。これは別記事(*3)をご参照いただきたいた。
二つめは、定期的にバックアップ機器への切り替え訓練をすることである。本番の切り替え時に慌てて間違うことを避けることと、バックアップ機器が確かに動くことを確認するためである。いつの間にかデータの構成が変わっていて、バックアップ機にデータが入らないということもあり得るからだ。

□ サーバーにはRAIDを装備したい
RAID(レイド、と読む)は、サーバーコンピュータのハードディスクを冗長化する機構であり(※注:冗長化しないタイプもある)、1台のハードディスクが壊れても動き続ける機能をもっている。利用者側としては特段の運用は必要なくサーバーのハードウェアを購入する際に、この機構が付いたものを選択するだけである。費用は少し高くなるが重要なシステムでは必須の装備といえる。

□ 災害時の対策との違い 
災害時はサーバーや利用端末を設置してある建物が消失してしまうことをも想定するため、対策も大がかりに考える必要がある。
これに対して、システム障害の場合、まずは1つの部位が障害で壊れることを考える。1つの障害の発生頻度と、復旧までに要する時間を考えて、復旧するまでの間に別な部位に障害が発生するかどうかというところまでを想定しておけば、確率的にはほぼカバーができる。3重以上の同時多発障害だってあり得るだろうが、どこまでを考えるかは費用との相談になる。

□ 費用との相談
以上、基本的な考え方を述べさせてもらったが、システム障害も災害と同様、将来の不確定要素であり、このリスクへの対応は保険と同じである。つまり、どこまでの備えをするのかは、費用に跳ね返ってくる。
費用対効果を考えて、一つ一つのリスクを吟味しながら投資計画を立てていただきたい。
(2012.5.14 執筆:山田一彦)

*1:ハードディスクは、1分間に7,200~15,000回転が主流。データを読み込むヘッドは1mm以内、データが記憶されているディスクとの間隔は10nm(ナノ:1nmは100万分の1mm)であることから概算した。
*2:ジェイコム株大量誤発注事件(2005/12/8に発生)http://ja.wikipedia.org/wiki/%E3%82%B8%E3%82%A7%E3%82%A4%E3%82%B3%E3%83%A0%E6%A0%AA%E5%A4%A7%E9%87%8F%E8%AA%A4%E7%99%BA%E6%B3%A8%E4%BA%8B%E4%BB%B6
*3:「システム運用処理自動化の落とし穴に落ちないマネジメント」参照