3/03/2017

Amazon AWSの大規模障害はヒューマンエラーが原因

今週、アメリカで起こったAmazon AWSの大規模障害に関するrecodeの記事より

Amazonは、火曜の午後に数時間に及ぶ多数のインターネットサイトを停止させた大規模AWS障害はヒューマンエラー(人為的ミス)が原因とした

ブログの記事によると、Amazonは従業員の1人が課金システムの問題をデバッグしていて、誤って意図したよりも多くのサーバをオフラインにしてしまったと示した。そのエラーは他の2つのサーバ・サブシステムなどなどを停止させるドミノ効果を起こした。

「容量の大部分を削除することで、これらの各システムは完全な再起動を行う必要が生じた。これらのサブシステムが再起動している間は、S3はサービスのリクエストを処理できなかった。S3コンソール、Amazon Elastic Computer Cloud (EC2)の新しいインスタンスのローンチ、Amazon Elastic Block Store (EBS)ボリューム(データがS3スナップショットから必要な時)など、S3ストレージに依存するUS-EAST-1リージョンの他のAWSサービスやAWS Lambdaは、S3 APIが利用不可能な間、影響を受けた。

それに応じて、同社は同様のヒューマンエラーが大きな影響を与えないようにいくつかの変更を行なっていると示した。1つは従業員がサーバの容量を削除するために利用するツールが、以前できたのと同じくらい迅速に削除できないようになる。

AmazonはAWS Service Health Dashboard (AWSサービスが正常に動作しているか、していないかを示すウェブページ)が、同様の事象が発生しても停止を防ぐよう改善しているとも示している。

コンピューティング・パワーとデータ・ストレージを規模を問わず企業にリースしているAWSは、来年には140億ドル規模の事業になると見込まれている。また、Amazonの営業利益の大部分を占めてもいる。

BoingBoingArs TechnicaTechCrunch