Zoom中にマイクが拾ったキーボードの音から93％の精度で入力内容を推測可能、スマホならなんと95％との研究結果

2023年8月7日 12時0分

スマートフォンに内蔵されたマイクで録音したMacBook Proのキーボードの音から、95％もの精度で入力内容を盗み出すことができたと、イギリスの研究チームが発表しました。ビデオ会議を録音した内容からでも93％の割合でデータを再現できたことから、機械学習の進歩により音を使ってパスワードや重要なデータを盗む技術「音響サイドチャネル攻撃(Acoustic Side Channel Attack)」が、従来より格段に危険性を増していることが指摘されています。

[2308.01074] A Practical Deep Learning-Based Acoustic Side Channel Attack on Keyboards

https://arxiv.org/abs/2308.01074

New acoustic attack steals data from keystrokes with 95% accuracy

https://www.bleepingcomputer.com/news/security/new-acoustic-attack-steals-data-from-keystrokes-with-95-percent-accuracy/

2023年8月3日付でプレプリントサーバー・arXivで発表した論文の中で、イギリス・ダーラム大学のジョシュア・ハリソン氏らの研究チームは、キーボードの打鍵音のデータをディープラーニングモデルのトレーニングデータとして使用し、キーストロークの音から入力内容を推測する技術を開発しました。

データ収集には、記事作成時点で最新型の13インチMacBook Proが使われ、36個のキーを25回ずつ押下した音が17cm離れた場所に置かれたiPhone 13 miniで録音されました。以下は、サンプリングが行われた録音環境の様子です。

研究チームは次に、収集したデータをスペクトログラムに変換し、音を可視化しました。

こうして得られた画像は、信号を補強するためのデータ処理が施されてから、画像認識モデル「CoAtNet」のトレーニングに用いられました。

そして、トレーニング後のディープラーニングモデルの精度を測定した結果、CoAtNetは95％の正確さで入力されたキーを判定できたことが確かめられました。また、ビデオ会議ツールのZoomで収集した音で同様の実験を行ったところ、こちらも93％と高い精度が達成されました。

キーストロークの音からキー入力を推測する技術は進歩の一途をたどっており、Skypeを用いた別の研究でも91.7％の精度が示されています。

研究者らは論文の中で、音響サイドチャネル攻撃(ASCA)を警戒するユーザーに対し、タイピングのやり方を変えたり、単語ではなくランダムな文字列で構成されたパスワードを使ったりすることを提案しました。

また根本的な防御策として、ビデオ会議中には重要な情報をタイピングせず、やむを得ない場合は入力中にマイクをミュートにすることが提唱されています。さらに、指紋などの生体認証やパスワードマネージャーの使用によりパスワード入力そのものを回避するのも効果的とのこと。

今回の研究結果を取り上げたIT系ニュースサイトのBleepingComputerは、「覚えておくべきなのは、この攻撃モデルはとても静かなキーボードに対しても非常に有効であることが証明されているため、メカニカルキーボードに防音シートをかぶせたり、メンブレンキーボードに変更したりしても、効果があるとは考えにくいということです」とコメントしました。