AI検出器は人間の学生が書いた文章の1～2％をAI製と誤認、ぬれぎぬで試験を落とされる学生にとってはたまったものではない精度

2024年10月23日 7時0分

OpenAIのChatGPTが生成AIを一気に実用的なものに押し上げて以来、学生の17％が課題にChatGPTを使ったことがあると回答する一方、教師らもAI検出器を駆使してAIを使ったカンニングを見抜こうとするなど、AIをめぐる学生と教師の対立は激化の一途をたどっています。海外メディアのBloombergが、人の手で書かれた文章を使って主流のAI検出器を検証したところ、高くはないものの決して無視できない割合で誤検知が発生したことを報告しました。

Do AI Detectors Work? Students Face False Cheating Accusations - Bloomberg

https://www.bloomberg.com/news/features/2024-10-18/do-ai-detectors-work-students-face-false-cheating-accusations

以下は、BloombergがChatGPTのリリース前に書かれた500本の小論文を、主流のAI検出器のGPTZeroとCopyleaksにかけた結果を図にしたものです。テストの結果、500本中3本がAIで生成したものだと判定され、9本が部分的にAIを使って書かれたものだと誤認されました。

テストに使われた小論文は、ChatGPTが一般公開される前である2022年夏にテキサスA＆M大学に提出されたものなので、AIで生成された可能性はほとんどありません。また、資料請求を通じて入手されたものであるため、AIのトレーニングに使われたこともありません。

AIが出力したものだと誤検知された小論文の中には、ほぼ100％だと判定されたものもあったとのことです。

痛くもない腹を探られる可能性が特に高いのは、同じ言葉や言い回しを多用しやすい発達障害の学生や、第2外国語としての英語(English as a Second Language：ESL)を学んでいる学生です。

スタンフォード大学が行った調査によると、AI検出器はアメリカ生まれの中学2年生が書いた作文ではほぼ完璧な精度を示す一方で、英語が母国語ではない生徒が書いたものは半分以上をAI生成テキストだと識別したとのこと。

OpenAIは以前、ESLの学生を含む特定のグループに悪影響を与える可能性があるという懸念を理由に、ChatGPTを使って書かれた文章を99.9％の精度で検出することができるツールの公開を見合わせていると発表したことがあります。

自閉スペクトラム症により、AI生成と間違われやすい定型的な文章を書きがちだというモイラ・オルムステッド氏は、この問題に巻き込まれた経験を持つ当事者のひとりです。出産のために大学を休学した後、子育てと教師になる夢を両立させるべく復学したオルムステッド氏でしたが、AI検出器の誤認により必修科目の課題のひとつが0点になってしまいました。

教授からAI検出ツールのチェックについて聞かされた時の衝撃を、オルムステッド氏は「おなかを殴られたようでした」と話しています。

教育現場にAIがどれくらい浸透しているのかは、もはや定かではありません。BloombergがChatGPTのリリース後である2023年夏に提出された小論文305本を前述のテストと同じAI検出器にかけたところ、9％がAI生成だと判定されました。

Bloombergの検証ではまた、AI生成テキストを人間の文章だと偽装するために作られた自動ツール、いわゆる「AIヒューマナイザー」によってAI検出器がだまされるケースがあることも判明しました。

具体的には、GPTZeroによって「98.1％の精度でAI」と誤認された小論文を、Hix BypassというAIヒューマナイザーで補正したところ、判定結果は5.3％に激減してしまったとのことです。

このような状況は、対立するAIテクノロジーの軍拡競争に発展し、教育上のメリットがほとんどないまま教育者と学生の間に深い亀裂を生じさせる危険性があると、Bloombergは指摘しています。

教育者の中には、AIの使用を禁じるのではなく、学生にAIを正しく活用させるにはどうすればいいのかを模索している人も居ます。

AI検出器ではなく自分の感覚を頼りに課題を採点し、疑わしい場合は生徒と直接話し合うようにしているというメリーランド大学の英語学教授のアダム・ロイド氏は、Bloombergに「好むと好まざるとにかかわらず、人工知能は将来的に欠かせないものとなるでしょう。AIを教室から締め出したり、学生に使わないよう奨励したりすべきだと考えるのは間違いです」と述べました。

AIを禁止するのではなく「どのように使いどのように評価するか」を学生教育に取り入れる試み - GIGAZINE