AIでニュース見るの、もうやめた方がいい? 誤報率は45%
何を信じてよいか分からなくなると、何も信じなくなってしまうかも。
「AIは正しいニュース報道をするのがすごく苦手」を裏付けるデータが出てきました。
ヨーロッパ放送連合(EBU)が行なった新しい研究によると、AIアシスタントは「言語、地域、AIプラットフォームを問わず、ニュース内容を常習的に誤って伝える」とのことです。
AIが伝えるニュース
この調査には、18か国、14言語にわたる22の公共放送機関が参加し、最もよく使われているAIチャットボットから得られたニュースに関連する3,000件の回答を評価。
対象となったのは、OpenAIのChatGPT、Microsoft Copilot、Google Gemini、Perplexityの4つです。評価基準は「正確性」「情報源の明示」「事実と意見の区別」「文脈の提示」などでした。
研究チームは、全回答のうち45%に少なくとも1件の重大な問題があり、81%に小さな問題があったと報告しています。最大の問題原因は「情報源」に関するもので、全体の31%にリソースの欠如、誤解を招く引用、または誤った出典表示といった深刻な問題が見られました。
AIは古い情報を学んでいることを理解する
次に多かったのは「正確性」の問題。30%の回答に事実誤認やハルシネーション(存在しない情報)、もしくは古いデータが含まれていました。例えば、あるケースではChatGPTが「現ローマ教皇はフランシスコ」と回答しましたが、実際にはその時点でフランシスコ教皇はすでに1か月前に亡くなっていて、今の教皇はレオ14世でした。
また、Copilotが「鳥インフルエンザを心配すべきか」との質問に対して「オックスフォードでワクチン治験がおこなわれている」と回答しましたが、その情報源は2006年のBBC記事でした。
テストされたモデルの中で、ニュース対応が最も悪かったのはGemini。Geminiは全回答のうち76%に問題があり、その数は他のモデルの2倍以上。次に問題が多かったのはCopilot(37%)、ChatGPT(36%)、Perplexity(30%)の順でした。
研究では、AIアシスタントが特に苦手とするのは情報が急速に変化するニュースや時系列や詳細が複雑な記事、事実と意見を明確に区別すべきテーマなどであると指摘されています。例えば、「トランプ氏は貿易戦争を始めているのか?」という質問に対してモデルのほぼ半数が重大な誤りを含む回答を出していました。
何も信じられないとどうなる?
EBUメディア部門ディレクター兼副事務局長のJean Philip De Tender氏は、プレスリリースで、「今回の研究は、こういった欠陥が単発的なものではなく、体系的かつ国境と言語を越えたものであることを明確に示しました。これは公共の信頼を危険にさらすものです。私たちは何を信じてよいかわからなくなると、最終的に何も信じなくなり、民主的な参加意欲を損なうおそれがあります」と述べています。
とはいえ、AIはあらゆる場面で多く使われています。AIアシスタントは急速に一般ユーザーの主要な情報源となりつつあり、検索エンジンの地位を脅かしています。SEOをやっていたコンテンツ制作者たちは、いまや「生成エンジン最適化(GEO)」を学ばなければならない時代に入っています。AI企業もこの流れを加速させています。
今週初め、OpenAIは会話形式でインターネットを閲覧できるウェブブラウザ「ChatGPT Atlas」を発表しました。Googleは検索エンジンにAI要約機能を統合しただけでなく、Chromeブラウザ全体へのGemini完全統合やAI検索モードの拡張を発表しています。
AIをニュースを読むために一番使う国は?
一方、PerplexityもAI専用ブラウザ「Comet」を提供していますが、今年初めにユーザーのログイン情報を引き出せることがわかり、セキュリティ上の懸念が高まりました。ロイター研究所とオックスフォード大学の最新報告によると、ニュースを得るためにAIアシスタントを使う人はまだ少数派ですが、その割合は昨年から倍増しています。AIをニュース入手に使う割合が最も高いのはアルゼンチンとアメリカで、特に18〜24歳の若年層に多いとのことです。また、18〜24歳の48%が「ニュースをわかりやすくするため」にAIを使用しており、55歳以上でも27%と高い数値でした。
研究チームは報告書で次のように述べています。
もしAIアシスタントがまだニュースを得るための信頼できる手段でないのに、多くの消費者がその正確さを信じているとしたら、それは問題です。AIアシスタントや回答優先型の体験によって、信頼できる報道機関へのトラフィックが減少していることが、事態をさらに悪化させています。
今回のEBUの調査は、今年初めにBBCが実施した類似研究を基盤にしています。両者を比較すると、AIモデルの一部には改善が見られるとのことです。
特にGeminiは正確性の面で最も改善が見られましたが、ChatGPTとPerplexityには改善が確認されませんでした。
一方で、リソースの問題についてはGeminiの改善は見られず、Copilotは重大な問題が大幅に増加しました。しかし、こうした改善があっても、まだ多くの回答には深刻な誤りが含まれているのです。
研究者たちは報告書で、「AIアシスタントはニュースに関して信頼できる手段とはまだ言えません」と結論づけています。
