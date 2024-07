日頃、「頭痛」や「胸の痛み」などちょっと気になる症状が出た際、私たちはChatGPTなど生成AIに相談しても大丈夫なのだろうか? この種の生成AIが日常生活に日々浸透する中、それによる医療診断の信頼性を検証する調査(実験)が米国で実施された。

●How Well Can AI Chatbots Mimic Doctors in a Treatment Setting? We Put 5 to the Test(AEI, July 18, 2024)

トップの生成AIは98%の正答率

米シンクタンクAEIの調査でChatGPT-4oやClaude 3.5、Gemini Advancedなど5種類の生成AIに米国の医師国家試験「Step 3」の試験問題を回答させたところ、いずれのAIも合格基準である正答率60%を軽々とクリアした。

中でもトップのChatGPT-4oは全50問中、49問で正解を返すなど驚くべき成績(正答率98%)を上げたという(表1)。

この「Step 3」は米国の医師国家試験の最終段階に該当し、通常なら研修医(resident)になって初年度または2年目に受験する資格試験だ。

これらの研修医がそれまで医学大学院(medical school)等で学んだ医療の専門知識を、実際の患者の診断に正しく応用できるかをテストする事が「Step 3」の主な目的とされる。

その試験問題は選択式とシミュレーション(何らかの病気を想定したケース・スタディ)の2種類からなるが、今回の調査ではそれら両方の問題を5種類の対話型AIに入力して回答させたという。

この試験でいずれも合格基準(60%)を楽々とパスする成績を残したことは、これら対話型AIの高い診断精度を示す結果と見ることができる。

本物の医師のような診断能力を披露

中でもトップの成績を残したChatGPT-4oでは単に正解を返すのみならず、正しい診断結果に至る詳細な分析・思考経路や初診後のフォローアップなど合理的かつ総合的な所見を示すことができたという。

たとえば、何らかの性感染症の症状を示す20歳の男性患者(を想定した問題)に対し、ChatGPT-4oは(5つの選択肢のうち)正解となる「HIVの血清学検査」を推奨したばかりか、このケースでは最初の検査から1週間後に追加検査を受ける必要性も(その理由も含めて)説明したという。

これに続く(2位の)Claude 3.5をはじめ4種類の生成AIも、(正解を返したケースでは)正確で論理的な診断を(医学には素人の一般)患者が理解できる平易な表現で下すことができたという。

生成AIを病気診断に推奨しているわけではない

ただし、これら5種類の生成AIは本来医療用ではなく一般消費者を想定して開発されたコンシューマー製品だ。また、これらの生成AIがいわゆる「幻覚」と呼ばれる作り話や誤った情報、様々な偏見などを回答として返す恐れもあることは以前からよく知られている。

特に「病気の診断」は私たちの健康や生命に直接関わる医療サービスであるだけに、そこに(前述の)幻覚や誤情報等の危険性をはらんだ生成AIを敢えて導入することを問題視する声も一部専門家からは聞かれる。

こうした懸念に対し、今回の調査を指揮した元FDA(アメリカ食品医薬品局)長官のScott Gottlieb博士は「既に米国人の多くは(ChatGPT等の)生成AIを自身の病気の診断に活用している」と(する旨を)述べている。

つまり今回の調査は生成AIを敢えて推奨しているわけではなく、むしろこれらの生成AIが既に一般消費者の間で病気の診断目的に使われていることを前提に、その安全性や妥当性を検証するために実施したということだ。

検索エンジンより頼りになりそうな理由

従来、米国のみならず日本を含む世界全体で多くの一般ユーザーがグーグルなどの検索エンジンを利用して、自らの病気診断をしてきた。そこには当然、素人の自己診断に伴う危険性も伴うが、Gottlieb博士によれば今回の5種類の生成AIはそうした検索エンジンよりも信頼できるという。

従来の検索エンジンでは一旦ユーザーが誤った病因を信じてしまうと、そこを深堀りしてしまうのでどんどん誤った方向に進んでしまう。これに対しChatGPT等の生成AIでは、症状とそれを引き起こす病因の因果関係が意外にしっかりしている。また、そうした診断の根拠となる医療専門のウェブサイト等へのリンク・アドレスもきちんと示してくれるという。

つまり素人が検索エンジンで自らの症状の原因を探索していくよりも、生成AIに頼った方がより正確な診断を下せるというのだ。また、それらの生成AIは一般人のみならず、医師のような専門家にも病気の原因をより広範囲に提示できる点で効果的であるという。

その一方で、もちろん課題もある。ChatGPTなどの生成AIはいずれもウェブ上を中心に多種多様なデータの機械学習によって開発された。しかし本来ならそうした多彩で雑多なデータよりも、むしろ医学論文や医療関連データなど専門的な情報に絞って機械学習させた方が診断の精度は高まるはずだという。

逆に言えば、ChatGPTなど一般の生成AIを私たちが自分の病状の診断などに応用する際には、(たとえトップが98%の正答率でも)相応の注意や警戒が必要ということだろう。

もう一点注意が必要なのは、これら生成AIの機械学習用データでは欧米を中心に英語情報(特にコーカソイド系、つまり白人に関する情報)の占める割合が比較的大きいということだ。当然、医療データについても同じ事が言えるので、私たち日本人をはじめ東アジア系の人種の病気診断では若干精度が落ちる恐れがある。

最終的には「自己責任」の世界

これらの点を意識してか、医師ら専門家の多くは「(一般ユーザーがChatGPT等の生成AIを使う際には)自分の症状(病気)を直接AIに診断させるのではなく、むしろ何らかの薬剤の効用をAIに説明させるなど一般的な活用法にとどめるべきだ」と述べている。

また、当のOpenAIは広報担当者を通じて「ChatGPTは本来医療用に開発されたAIではないので(一般ユーザーが)病気の自己診断に活用することは控えた方がいい」と釘を刺している。が、その一方で「人種などによる違いを認識するために、モデル(生成AI)のトレーニング(機械学習)を進めている」と(する旨)も述べている。

一方グーグルは病気の診断などに向けて、電子カルテなど医療専門データで機械学習させた生成AI「Med-Gemini」を今年5月に発表している。

これらの趨勢から見て、生成AIで病気の診断をすることはいずれ日常茶飯事となっていきそうだ。ただし、私たち一般ユーザーがそれを行う際には前述のような危険性が伴うことを(たとえ今後、それらのAIがどれほど改良されたとしても)承知しておく必要があるだろう。

無責任に聞こえるかもしれないが、あくまで自己責任の世界なのである。

