OpenAIの文字起こしAI「Whisper」が幻覚を起こし文章を捏造すると研究者が指摘
OpenAIは文字起こしAIのWhisperを「人間レベルの堅牢性と正確性を持ったツール」と宣伝していますが、これには大きな欠点があると専門家たちが指摘しています。十数人のソフトウェアエンジニア、開発者、学術研究者にインタビューしたというAP通信によると、Whisperは文字起こしにおいて一部のテキストや文章全体を捏造するケースがある模様。この捏造はAIのハルシネーション(幻覚)によるもので、人種差別的なコメントや暴力的なレトリック、さらには想像上の医療処置を捏造するケースもあるそうです。
https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14
OpenAI’s Whisper transcription tool has hallucination issues, researchers say | TechCrunch
https://techcrunch.com/2024/10/26/openais-whisper-transcription-tool-has-hallucination-issues-researchers-say/
AP通信がインタビューした専門家によると、Whisperは文字起こしやインタビューの翻訳、動画の字幕作成などさまざまな用途で使用されています。そのようなツールがハルシネーションを起こしてテキストを捏造してしまうのは「問題だ」と、インタビューに応じた専門家は指摘。また、開発元であるOpenAIは「高リスク領域」ではWhisperを使用しないようにと警告しているにもかかわらず、一部の医療機関は医師の診察内容を書き起こすためなどにWhisperを利用していることも明らかになっています。
AP通信のインタビューに応じた専門家たちは、仕事の中でWhisperが頻繁にハルシネーションを引き起こす場面に遭遇したと報告しています。例えば、公開会議の研究を行っているミシガン大学の研究者は、WhisperのAIモデルがアップデートされる前に行った調査で、音声記録10件中8件でハルシネーションによる捏造が起きていたと報告しました。
また、別の機械学習エンジニアはWhisperに100時間以上の音声データを文字起こしさせたところ、約半分がハルシネーションによる捏造を含んでいたと報告しています。さらに別の開発者は、Whisperで作成した2万6000件の文字起こしのほぼすべてでハルシネーションによる捏造が見つかったと語りました。
Whisperのハルシネーションによる捏造は、音声データの録音状況が良好でも発生する模様。コンピューターサイエンティストによる最新の研究では1万3000件以上の良好な音質の音声データをWhisperに文字起こしさせ、ハルシネーションによる捏造が発生していないかを調査しており、この調査では実に187件で捏造が発見されています。
2023年までバイデン政権でアメリカ合衆国科学技術政策局を率いており、記事作成時点ではニュージャージー州プリンストン高等研究所に務めるアロンドラ・ネルソン氏は、「このようなミスは特に医療現場で『本当に深刻な結果』をもたらす可能性があります」「誰も誤診を望んでいません」「より高い基準を設けるべきです」と語りました。
他にも、Whisperは聴覚障害者や難聴者向けのクローズドキャプションの作成にも使用されています。聴覚障害者や難聴者は、AIによる捏造を識別する手段を有していないため、「特に誤訳による高いリスクを負うことになる」とギャロデット大学のテクノロジーアクセスプログラムを監督する聴覚障害者のクリスチャン・フォーグラー氏は語りました。
このようなハルシネーションがまん延しているため、専門家や支援者、OpenAIの元従業員はアメリカ政府に対してAI規制を検討するよう求めています。2024年2月にOpenAIの方向性に懸念を抱き、同社を辞めたウィリアム・サンダース氏は、「企業に優先する気があれば、これは解決できるはずの問題です」「このような状態のAIを世に出し、人々がAIができることに自信過剰になり、他のあらゆるシステムにAIを統合してしまうのは問題だと思います」と語り、AIの急速な普及に懸念を示しました。
AP通信はこの件についてOpenAIに問い合わせを行っており、同社の広報担当者は「ハルシネーションを軽減する方法を継続的に研究しており、研究者の発見を高く評価しています」と返答したそうです。さらに、OpenAIはモデルの更新にフィードバックを取り入れているとも付け加えています。
なお、AP通信がインタビューを行った開発者のほとんどが、「文字起こしツールが単語のスペルミスやその他のエラーを起こす」と想定しているものの、Whisperほど誤字脱字を起こす文字起こしAIは「見たことがない」と語っているそうです。
実際にWhisperが捏造したテキストとしては、人種に関する言及が一切ない会話の中で話者を「黒人」と指定したり、「過剰活性化抗生物質」という存在しない薬物を生み出したりした模様。これらの捏造がなぜ起きるのかは正確には不明ですが、ソフトウェア開発者は「一時停止、背景音、音楽の再生中」などが発生している際にハルシネーションが起こる傾向があると語っています。