MicrosoftがCrowdStrike障害についての分析結果を報告、将来の改善点についても説明
2024年7月19日に発生した「Windowsがブルースクリーンになり、強制的に再起動を繰り返す」というCrowdStrikeのアップデートに伴う大規模な障害について、Microsoftが詳細な分析結果を報告しています。
Windows Security best practices for integrating and managing security tools | Microsoft Security Blog
Microsoft is Working with the Security Industry to Prevent Another CrowdStrike Outage - Thurrott.com
https://www.thurrott.com/cloud/306255/microsoft-is-working-with-the-security-industry-to-prevent-another-crowdstrike-outage
Microsoft finally explains the root cause behind CrowdStrike outage - Neowin
https://www.neowin.net/news/microsoft-finally-explains-the-root-cause-behind-crowdstrike-outage/
Microsoftは「今回の障害はCrowdStrikeのCSAgent.sysドライバーの領域外読み取りメモリ安全エラーによるもの」というCrowdStrikeの調査結果を認めています。海外メディアのNeowinによると、CSAgent.sysはファイルの作成や変更など、ファイル操作に関する通知を受け取るためにWindowsに登録されるドライバーで、これによりCrowdStrikeなどのセキュリティ製品で、ディスクに保存された新しいファイルをスキャンできるとのこと。
なお、障害の詳しい原因は以下の記事にまとめています。
多数のWindowsでブルースクリーンを発生させてしまったCrowdStrikeのコードは何が悪かったのか - GIGAZINE
今回CrowdStrikeの障害が発生した原因は、CrowdStrikeが毎日数回更新・配布している構成ファイルにミスがあったこととされています。構成ファイルにおいて不正なアドレスが指定されていたため、カーネルドライバが無効なメモリを読み取ろうとしてシステムがクラッシュしたとのこと。
Microsoftによると一部のユーザーから「なぜCrowdStrikeなどの第三者のソフトウェア開発者に対しカーネルレベルのアクセスを許可しているのか」との批判を浴びせられたそうです。そこでMicrosoftはセキュリティ製品にカーネルレベルのアクセスを提供する理由について説明しており、「カーネルドライバーを使用すると、システム全体の可視性が向上し、ブートプロセスの早い段階で読み込まれて、ユーザーモードアプリケーションの前に読み込まれる可能性があるマルウェアやルートキットなどの脅威を検出できます」「カーネルドライバーは、高スループットのネットワークアクティビティなどの場合に、より優れたパフォーマンスを提供できます」「ブートプロセスの早い段階で早期起動マルウェア対策(ELAM)を提供することで、攻撃者が管理者レベルの権限を持っている場合でも、マルウェアなどによってソフトウェアが無効にならないよう工夫しています」と述べています。
一方で、カーネルドライバーはインストールされているマシンの潜在的な回復性を低下させることが指摘されており、問題が発生した場合に使用できる封じ込め機能と回復機能は非常に弱いものとなるとのこと。この問題に対処するために、Microsoftは複雑なコアサービスをカーネルからユーザーモードに移行しており、2019年にはTPM 2.0やセキュアブートなどの保護機能をセキュリティベースラインに含め、Windowsのセキュリティの規定値を大幅に引き上げています。
Microsoftは将来的な改善点として「安全なロールアウトのガイダンス、ベストプラクティス、およびテクノロジーを提供して、セキュリティ製品の更新をより安全に実行できるようにします」「カーネルドライバーが重要なセキュリティデータにアクセスする必要性を減らします」「VBSエンクレーブなどのテクノロジーにより、強化された分離機能と改ざん防止機能を提供します」「マシンのセキュリティ状態を判断する方法を提供する高整合性構成証明などのゼロトラストアプローチを有効化します」と宣言しました。
なお、障害が発生した2024年7月19日から1週間が経過した2024年7月26日時点で、影響を受けたシステムの約97%が復旧したことがCrowdStrikeのジョージ・カーツCEOによって報告されています。
世界中のWindowsがブルースクリーンになったCrowdStrikeの大規模障害発生から1週間で97%が復帰 - GIGAZINE