2024年3月26日にCloudflareのデータセンターで大規模な停電が発生しましたが、ほとんどのサービスは全く影響を受けませんでした。どのように障害を防止したのかについてCloudflareが公式ブログに投稿しました。

Major data center power failure (again): Cloudflare Code Orange tested

https://blog.cloudflare.com/major-data-center-power-failure-again-cloudflare-code-orange-tested



今回の停電事件の約5カ月前である2023年11月2日に、Cloudflareのオレゴン州ポートランド地域にあるデータセンターで停電が発生しました。この11月の停電では下記の14サービスにおいて、データの伝送経路を制御するコントロールプレーンが少なくとも6時間ダウンするという障害につながってしまいました。

・API and Dashboard

・Zero Trust

・Magic Transit

・SSL

・SSL for SaaS

・Workers

・KV

・Waiting Room

・Load Balancing

・Zero Trust Gateway

・Access

・Pages

・Stream

・Images

大規模な障害発生を重く見たCloudflareは、「コードオレンジ」を宣言しました。

「コードオレンジ」とは、Googleが用いている「ビジネスの存続に関わる脅威が発生した際に脅威の度合いに応じて『コードイエロー』『コードレッド』を宣言し、優先して解決に取り組む」という仕組みを取り入れたもの。「オレンジ」なのはCloudflareのロゴの色に合わせています。

「コードオレンジ」宣言後、チームは主要なデータセンター施設で再び壊滅的な障害が発生した際でもサービスをできる限り止めないようにする仕組みの作成を最優先で進めました。



最初の停電から約5カ月が経過した2024年3月26日の14時58分に、同じデータセンターで再び停電が発生しました。前回同様、データセンターへの接続が失われたという警告がすぐに届きました。そして前回とは異なり、Cloudflareのチームは原因が停電であるとすぐに判断できたとのこと。

Cloudflareのコントロールプレーンは数百の内部サービスで構成されており、オレゴン州ポートランド地域に3つ設置してあるデータセンターのうち1つを失っても残り2つの施設で動作し続けることが期待されています。前回の停電以降、Cloudflareは数カ月かけて冗長設備への自動フェイルオーバーを準備してテストを積み重ねており、今回の停電ではほとんどのサービスが全く影響を受けなかったり、影響があっても数分以内に復旧したりすることに成功しました。

ただし、ユーザートラフィックを把握するための分析プラットフォームのみ当該データセンターに依存していたため、当日の夜遅くまで完全には復旧できなかったとのこと。Cloudflareは前回の停電後すぐに新しい分析プラットフォームの構築を開始していたものの、規模が大きいためまだ完了できていませんでした。このプラットフォームについては近い将来に完成し、1つのデータセンターにサービスを依存することがなくなる予定とされています。



また、停電から復帰したデータセンターのコールドスタートにかかる時間は前回の停電時には72時間だったのが今回の停電では10時間まで短縮できたとのこと。このコールドスタートについては引き続き手順を改良することで将来的にさらに時間を短縮できる予定と述べられています。

なお、今回の停電の原因はデータセンターの4つの配電盤が同時に故障したことによるものとのこと。障害調査の初期評価ではブレーカーの設定ミスによって故障が連鎖したとされています。

Cloudflareは「過去4か月間の取り組みが期待どおりの結果をもたらした」と述べ、「今後も残りの作業を完了することに全力を尽くす」とブログを締めくくりました。