1

By N i c o l a

2017年3月1日未明にAmazonが提供するクラウドストレージサービスの「S3」で大規模な障害が発生し、インターネット上では大混乱が巻き起こりました。約4時間も続いた障害の検証レポートがAWSにより公開され、障害の原因がキーの打ち間違いであったことが判明しました。

Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region

https://aws.amazon.com/jp/message/41926/



How a single typo brought the web to its knees

https://thenextweb.com/insider/2017/03/02/single-typo-brought-web-knees/

Amazon AWS S3 internet outage caused by engineer typing wrong command - Business Insider

http://www.businessinsider.com/amazon-aws-internet-outage-caused-by-engineer-typing-wrong-command-2017-3

AWSの検証レポートによれば、障害の原因はエンジニアがキーを打ち間違えたことにあったそうです。あるエンジニアがS3のサブシステムから少数のサーバーを停止するコマンドを入力しようとしたところ、間違えたコマンドを入力してしまい、予定よりも多くのサーバーが停止してしまいました。サーバーを停止するコマンド入力自体は毎日行うルーチンワークだったのですが、これがインターネットで大きな混乱を発生させる原因になってしまいました。

S3の大規模障害の詳細は以下の記事から確認可能です。

AmazonのAWS「S3」に障害が発生してネットは大混乱、復旧されるも影響は残っている模様 - GIGAZINE



停止されたサーバーの中には2つのS3サブシステムをサポートしているサーバーがあり、その1つは全てのS3のメタデータや位置情報を管理するインデックスサブシステムと呼ばれるもの。もう1つは新しいストレージの割り当てを管理するサブシステムで、インデックスサブシステムが動作していないと正常に機能しないものだったとのこと。こうして発生した障害から復旧するためにはシステムの再起動が必要になったのですが、AWSは長期にわたって再起動を実施したことがなく、復旧までは思いのほか時間がかかったそうです。

AWSはコマンドの誤入力の原因となったツールを改善し、動作を遅くするように修正。さらに、最小限のレベルのサブシステムのみを停止させる安全措置をとるとのこと。検証レポートの最後には「このような大規模障害を起こし多くのユーザーにご迷惑をおかけし大変申し訳ありませんでした」と綴られています。