BLOGTIMES
2017/04/03

MS が Azure の障害についての抄訳を公表

  microsoft  systemdown  azure  datacenter 
このエントリーをはてなブックマークに追加

Azure は3月8日、28日、31日と東日本、西日本リージョン共にこのところ立て続けにサービス障害が発生していますが、このうち直近の 3 月 31 日の障害について抄訳を公表を公表していたのでメモ。

要は冷却システムが落ちてセンターの温度が上がりすぎたためなんですが、問題はこれらのシステムは冗長化されていたということです。システムは落ちるときは落ちるので、それはそれで仕方ないことですが、冗長化されていたのにそれが上手く効かずに落ちたというのは気になります。

3 月 31 日夜間から発生した東日本データセンターの障害についての原因調査報告書 (RCA) の抄訳 – Japan Azure Technical Support Engineers

冷却システムは、N+1 の冗長性 (パラレル冗長性) を持つ設計となっており、電源供給は N+2 となっています。マイクロソフトならびにサードパーティの委託先は、この冗長性があったにも関わらず、RUPS システムの失敗が、全てのエア ハンドラー ユニット (AHU) への電源供給に影響したのかについて、現在調査中です。

ちなみに Azure の過去の障害の履歴は Azure の状態の履歴 から調べることができます。


    トラックバックについて
    Trackback URL:
    お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
    このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/9252
    Trackbacks
    このエントリにトラックバックはありません
    Comments
    愛のあるツッコミをお気軽にどうぞ。[policy]
    古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
    コメントはありません
    Comments Form

    コメントは承認後の表示となります。
    OpenIDでログインすると、即時に公開されます。

    OpenID を使ってログインすることができます。

    Identity URL: Yahoo! JAPAN IDでログイン