Amazon EC2障害原因:分散が課題

マゾンの各種クラウドサービスが数時間ダウンしたきっかけは雷。

しかし、停電対策がありながらEC2のストレージデータに不整合が起き、復旧が長引いた原因は、ELB:Elastic Load Balancingの不備のようです。

データセンター間でロードバランスをサポートしているが、ELBが機能していないと、NetflixのAdrian Cockcroftさんがツイートしています。

「 we lost a much bigger proportion of just one AZ than the last power outage, and the ELBs didn't route around it.」

AZとはAmazonのデータセンターのことだと思われます。
1箇所のデータセンターの停電なのに、ELBが機能せず、分散先の複数のデーターのデーターが失わる結果になったようです。

2011年4月にもアマゾンで障害がありました。
その時は、Amazon Elastic Block Store(EBS)のサイト間のトラフィックオーバーロードが原因で、EBSクラスターではノード間の通信が行えなりました。

2件とも、複数のデータセンター間に機能やトラフィックを分散させたことによる障害です。
分散にはメリットも多いものの、ドミノ倒しで複数のデータセンターが同時に機能しなくなる結果を招くリスクもあるようです。

最近のブログ記事

SORACOM,HLR持ちeSIM対応
SORACOMが自前のHLRを持ち、自…
準天頂衛星4機体制に
h2{ font-size:12…
Windows 10 mobile終了
Windows 10 mobileの新機…
カスタム検索

月別 アーカイブ