«

»

1月 04

023システム障害への対応は2種類の管理で万全をめざそう

残念ながら、情報システムにはダウンや利用上の不具合などの障害がつきものである。障害が発生した場合の対応は、利用者へのサービスを一刻も早く回復させることに重点をおく「インシデント管理」と、障害の根本要因を取り除くことに重点をおく「問題管理」という二つの観点の管理を進めることで、信頼性や利用者満足度を高めることができる。

□ 東証システム障害の対応は適切だったか
去る2月2日(※2012年)に東証(東京証券取引所)の売買システム、アローヘッドで発生したシステム障害は、300銘柄、午前中一杯に影響がでる大きなものとなった。アローヘッドは、東証が240億円の投資をおこなって、2010年1月から稼働を開始した、性能、信頼性ともに大きく向上させた(はずの)システムである。
システム障害の原因はサーバー一台の記憶装置の故障のようで、本来ならば3重化している他の2台のいずれかのサーバーに自動で切り替わるはずだったが切り替わらなかった。なぜ切り替わらなかったかは調査中とのことだ。人的な判断により早期の切り替えができてもよかったが、それもできずに取引に支障をきたし、国際的な信用にかかわる事態になってしまった。

□ システム障害対応を最適化させる2つの観点
私にも証券会社の株式売買オンラインシステムを担当した経験があるが、システム障害というのはいつ、どの部分で発生するかわからない。事業の中枢システムの場合、発生したら1秒でも早く復旧させなければならないが、拙速ではかえって事態を悪化させることもあるため、高度な判断が要求されるのである。
システム障害への適切な対応を考える際には、大きく二つの観点があり、それぞれの意義をしっかりと認識することで、全体としてのシステムの信頼性や利用者の満足度を向上させることができる。

□ サービスをいち早く復旧させる「インシデント管理」
システム障害対応でもっとも大切な要件は、「利用者の業務を極力止めないようにする」ことである。これをITサービス管理の世界では「インシデント管理」と呼んでいる。ITサービス管理のベストプラクティス集であるITIL(*1)によれば、「インシデント管理」の目的とは、「ITサービスの中断(または起こり得る中断)による影響を低減または排除して、ユーザができるだけ早く作業に戻れるようにすること」である。インシデントとは、利用者の利用を妨げる(かもしれない)あらゆる事象のことをいう。
情報システムには大なり小なり、システム障害はつきものであり、東証のようにいくら投資をしていても部分の故障からは逃れられない。インシデントの芽となる事象は必ず発生するものなのである。

□ インシデント管理の要点
インシデント管理の要点は、大きく2点ある。
1つめは、既に分かっているか、ある程度想定されているインシデントへの対処は、訓練や対応マニュアルなどにより、発生したら最短時間で復旧できるようにあらかじめ準備しておくことである。
2つめは、想定していない事態が発生した場合は、保守会社や専門家などとの連絡をすぐにとって、暫定対策を最少時間でとれるようにする体制を敷いておくことだ。
東証システム障害のケースでも、午後からは全面的な取引が可能となったが、これは予備サーバーで運転することで対処した。小さな障害でも大切な原則は同じであり、帳票に印字された数値が間違っていれば、暫定的処置でデータを強制的に書き換えるなどの手段でひとまずは対応する。

□ インシデントの発生要因を絶つ「問題管理」
システムが取りあえず復旧してよかった、で終わらせてはいけない。同じ要因で、また同様のインシデントが発生することは多いので、未知のインシデントが発生した場合は、要因を究明して、根絶しておかなければならない。このための活動を「問題管理」と呼ぶ。
しかし、必ずしも全ての要因が根絶できる訳ではない。障害事象がテスト環境でも再現できないために、要因が特定できないことがある。また、データベスなどのシステムソフトウェアが要因と思われる場合も、詳細な調査に限界があって、要因が突き止められずに終わることがある。こういった事態があることをも踏まえて、インシデント管理と連携をとった活動をすすめる必要がある。

□ 問題管理の要点
問題管理の要点は、次の2点である。
1つめは、一つ一つの根絶されていない事項を「問題」としてリストアップし、要因が究明できたか、要因の排除ができたかを管理することである。システムの重要性によって、管理するレベル(フォローの強さ、要求期限など)を変えると良い。
2つめは、要因の究明ができていないものと、費用などの理由から要因の根本対処を敢えてしないものについては、インシデント管理を強化することである。要因がシステムに内在しているとインシデントが繰り返し発生する可能性はあるが、その都度の暫定対処を迅速化し、影響を極小化する管理をすることで対応しようということである。
東証システム障害では、なぜ1台のサーバーが故障したのに自動で予備に切り替わらなかったのか、また、なぜ人的には把握していたのに早期に切り替えができなかったのかが問題のようである。この2点それぞれの要因を究明し、根絶するか、インシデント管理を強化して取引所の業務に影響がでないようにするかを突き詰めていくのが問題管理なのである。

(*1)ITIL アイティル、ITインフラストラクチャ・ライブラリ
(2012.3.12 執筆:山田一彦)