アマゾンの障害詳報

Amazon AWSで先週起きた障害に関する情報をみると、停電に耐えられなかった原因は、2つバグだったようです。

金曜の障害は、US-EAST-1 Regionにある複数のデーターセンターでの障害でしたが、1つのAZ : Availability Zone(データーセンターの集合)に閉じた障害だったそうです。
本来なら、1つのAZが障害でも、他のAZでカバーできるはずでしたが、今回カバーに失敗した原因は2つのバグが原因だったとIT World などがレポートしています。
ELBのバグ
電源の復旧に伴い多数のELBが通常状態に復帰し、未知のバグが健在化した。
このバグが生成した大量のリクエストが、オンラインに復帰するEC2のトラフィックと重なり、システムがブロック状態になった。
RDSのバグ
アマゾンのRDB(RDS)にもバグがあった。
バグのため、複数のAZにRDSを分散させていても、1つのAZから他のAZへの自動フェイルオーバーが出来ない。
RDSEBSを使っているので、EBS回復待ちとなった
このバグは4月に発見されており、来週に正式対処予定だった。

  経過
  1. 複数のデータセンターで停電
    ほとんどのDCで非常電源で回復
  2. 20:00直前  自家発電装置が障害。
    直ちに他の非常電源で電源供給開始
    7分で非常電源が尽きる
  3. 20:04 複数のデータセンターで10分間電源断となる(確認されたのは20:40)
  4. 20:04→21:10 EC2のインスタンスと、EBSのボリューム新規作成ができなくなる
  5. 20:40 AZの一部で電源断を確認
  6. 20:49 AZ(複数のデーターセンターの集合)の電源回復を確認
    復旧開始するもEC2EBSでエラー多発
    (experiencing elevated error rates.)
  7. 21:21 多数のRDSに不整合(impaired RDS)を発見
  8. 21:54 EC2EBSの正常動作を確認。インスタンスの復旧始まる
  9. 23:15→24:00 ほとんどのEC2インスタンスが復旧
    ただし、サーバーのブート要求が多数あったため、ブートプロセスが遅れも一部にあった。
    (Amazon:今後大量ブートのボトルネック解消に努める)
ファシリティも不安
バグも問題ですが、自家発電装置の故障と、代替電源が7分間で枯渇したことはファシリティにも問題があると思います。
データセンター間の広域バックアップ体制を前提として、個々のデーターセンターのファシリティは脆弱なのかもしれません。
運用監視も課題か
20:10電源復旧を確認して、インスタンス復旧開始するまで40分以上かかっているので、運用監視体制にも問題があるように思えます。

なお、影響を受けたのユーザーは10%未満とのこと

最近のブログ記事

SORACOM,HLR持ちeSIM対応
SORACOMが自前のHLRを持ち、自…
準天頂衛星4機体制に
h2{ font-size:12…
Windows 10 mobile終了
Windows 10 mobileの新機…
カスタム検索

月別 アーカイブ