日本時間の2024年7月19日に発生したCrowdStrikeの大規模障害では、850万台のWindows端末が影響を受けて、航空業界や病院、政府機関など膨大な量のシステムが動作不能に陥るなどの甚大な被害が生じました。今回の大規模障害について、CrowdStrikeが根本原因分析のレポートを発表しました。

Falcon Content Update Remediation and Guidance Hub | CrowdStrike

https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/



External Technical Root Cause Analysis - Channel File 291

(PDFファイル)https://www.crowdstrike.com/wp-content/uploads/2024/08/Channel-File-291-Incident-Root-Cause-Analysis-08.06.2024.pdf





CrowdStrike releases root cause analysis of the global Microsoft breakdown - ABC News

https://www.abc.net.au/news/2024-08-07/drt-crowdstrike-root-cause-analysis/104193866

さまざまな企業や政府機関などにインターネットセキュリティ製品を提供しているCrowdStrikeは、自社の製品に対して日常的にアップデートを施しています。今回障害が発生したのは、マルウェアからの自動的な保護やウイルス対策サポート、インシデント対応などを提供するサイバーセキュリティプログラムの「Falconプラットフォーム」です。Falconプラットフォームはクラウドベースであるため、CrowdStrikeのサーバーと連携して動作するため、顧客が追加の機器やソフトウェアをインストールして管理する必要がないのが特徴です。

CrowdStrikeによると、Falconプラットフォームに対するアップデートはプログラムのリリース以来、1日に複数回実施されていたとのこと。

2024年7月19日にCrowdStrikeは特定のWindowsホストに対し、Falconプラットフォームのセンサー設定アップデートをリリース。オーストラリア国立大学の情報システム教授であるシギ・グッド氏は「Falconプラットフォームのセンサーはマルウェアなどの疑いがある活動を検知してくれるシステムです」と述べています。

センサー設定のアップデートが実施されると、プログラム内のセンサーの場所や数が変更されることになります。2024年7月19日のアップデートでは、センサーが20個の入力フィールドを想定していたにもかかわらず、実際には21個の入力フィールドが提供されました。CrowdStrikeによると、この「カウントの不一致」が世界的な障害を引き起こしたとのこと。



CrowdStrikeは「コンテンツインタープリターは20個の値しか想定していませんでした。したがって、21番目の値にコンテンツインタープリターがアクセスしようとすると、入力データ配列の末尾を超えて領域外のメモリが読み取られ、その結果システムがクラッシュしました」と報告しています。

CrowdStrikeのシステムはWindowsの基本機能の役割を担う「カーネルモード」への特権的なアクセスが可能で、グッド氏は「カーネルモードは、ユーザーが何をしているかを常に監視し、使用しているアプリケーションからの要求を受け取り、シームレスにアプリケーションにサービスを提供します」と述べています。つまり、PCのシステムの中枢に位置するFalconプラットフォームで障害が発生すると、システム全体がクラッシュすることになるので、今回のような大規模な障害につながるというわけです。

CrowdStrikeの報告に対しメルボルン大学コンピューティング・情報システム学部のトビー・マレー准教授は「人間の開発者による基本的なテストさえあれば、今回の大規模な障害は防げたはずです。今回の障害は品質レビューと保証が正しく行われていなかったことによる根本的なもので、遅かれ早かれ壊滅的な問題が発生していたでしょう」と指摘しました。



なお、CrowdStrikeはセキュリティと品質保証の両方について、Falconプラットフォームのセンサーコードに関するさらなる調査を実施するために、2つの独立したソフトウェアセキュリティベンダーと契約を締結したことを伝えています。