BLOGTIMES
2015/02/19

1行のコードからおきた障害

  systemdown  report 
このエントリーをはてなブックマークに追加

以前、1文字のタイプミスから起きた IE のバグの話がありましたが、今回は1行のバグから起きたイギリスの航空管制システムのダウンの話。海外の事象なので発生したこと自体よく分かっていませんでしたが、12月12日にイギリスの航空管制システムで正系・副系の両系に障害が発生するという大事件が起きていたようです。

ハードウェアの故障の場合は正系から副系に切り替えれば仕事が続けられる場合がほとんどですが、障害部位がソフトウェアで明確な再現性があるようなものの場合、副系に切り替えた後で同じ手順を実施すると正系と同じように落ちてしまうという話はよく聞きますがそれを地でいってしまったようです。ヨーロッパの航空系のシステムはフォーマルな作り方をしていて、こういうポカミスはないと勝手に思っていたのですが、全部が全部そういうわけでもないということなんでしょうか。

たった一行のコードが招いた大混乱--英航空管制システムに起きた障害の原因が明らかに - ZDNet Japan

しかし、Deakin氏は厳しい現実も認めている。同氏の説明によれば、スワンウィックにあるNATSのメインの指令センターでは、50種類のシステムが400万行のコードを実行しているが、今回の問題の原因はその中のたった1行のコードだったという。
中間報告書によると、システムフライトサーバの「歴史上初めて」、アクティブシステムと予備システムの両方に同時に障害が発生したという。
原因はあの1行のコードだとDeakin氏と述べた。同氏は、そのコードが1990年代からシステムに存在していたことを認めた。

原文の障害についての報告書は下記から読むことができます。

ソフトウェアづくりに携わっていれば身にしみる話ではないでしょうか。


    トラックバックについて
    Trackback URL:
    お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
    このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/7406
    Trackbacks
    このエントリにトラックバックはありません
    Comments
    愛のあるツッコミをお気軽にどうぞ。[policy]
    古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
    コメントはありません
    Comments Form

    コメントは承認後の表示となります。
    OpenIDでログインすると、即時に公開されます。

    OpenID を使ってログインすることができます。

    Identity URL: Yahoo! JAPAN IDでログイン