[画像] ChatGPTでのカンニングは94%が検出不能でチェックを素通りし人間よりも成績が良いことが名門大学の試験を使った実験で判明



イギリスのレディング大学が「AI禁止の試験にChatGPTの解答を紛れ込ませる」という実験を実施した結果、ChatGPTの解答の94%は不正行為だとバレずに高得点を獲得してしまうことが示されました。

A real-world test of artificial intelligence infiltration of a university examinations system: A “Turing Test” case study | PLOS ONE

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

AI generated exam answers go undetected in real-world blind test - University of Reading

https://www.reading.ac.uk/news/2024/Research-News/AI-generated-exam-answers-go-undetected-in-real-world-blind-test

ChatGPTなどの文章生成AIの発達に伴って、「AIで生成された文章を検出するツール」も数多く登場しています。しかし、AI検出ツールは精度が低いことが指摘されており、ChatGPTの開発元であるOpenAIも自社製AI検出ツールを精度の低さを理由に公開停止しています。

そこで、レディング大学の研究チームはツールではなく人間の力でAIによる解答を検出できるか確かめるべく、「大学の試験に、採点者には知らせずにChatGPTの解答を紛れ込ませて、不正行為だと検出されるか確かめる」という実験を実施しました。

研究チームは倫理委員会や学部長の許可を得た上で心理学の学士課程の5つのオンライン試験を対象に実験を実施。ChatGPTにはプロンプトとして「文献を参照しつつ、参考文献一覧は含まずに、次の質問に160語で答えてください。【試験の問題文】」もしくは「文献を参照しつつ、参考文献一覧は含まずに、次の質問に答える2000語のエッセイを書いてください。【試験の問題文】」と入力し、人間による操作は「文字数が足りない場合に続きを書かせる」「出力内容をMicrosoft Wordで文書ファイルに加工する」「参考文献一覧が出力されたら削除する」といったものに限定して「人間の手直しを含まないAIによる解答」を作成しました。語数については試験問題の指示をそのまま入力すると短すぎる解答が出力されるため、指示によらず固定の値が用いられています。

研究チームは大学のシステム部門に依頼して偽の学生アカウントを作成し、ChatGPTで作成した解答を提出しました。なお、実験は2023年の夏に実施され、採点はおもに大学の技術スタッフや博士課程の学生によって行われました。

以下のグラフはChatGPTで作成した解答が不正行為だと検出された割合を示したもので、不正行為として検出された割合をオレンジ色、不正行為だと検出されなかった割合を青色で示しています。ChatGPTで作成した解答のうち94%は不正行為を検出されず、そのまま試験を通過してしまいました。



また、不正行為の中でも「AIによって生成された解答」だと検出された割合を示したグラフが以下。ChatGPTで作成した解答にうち「AIによって生成された解答」だと検出されたものはわずか3%でした。



人間による解答(オレンジ)とChatGPTで作成した解答(青)の平均点を比較したグラフが以下。ChatGPTの平均点は5個中4個のテストで人間の解答の平均点を上回っています。



「ChatGPTで作成した解答の得点の中央値」よりも高い得点を獲得した学生の割合を示したグラフが以下。ほとんどのテストでChatGPTが人間よりも高い点数を獲得していることが分かります。



研究チームは今回の実験結果をもとに「AIの解答は人間よりも一貫して高い成績を記録し、AIによる解答の検出は事実上不可能である」と結論付けています。また、研究チームは「AIを用いた不正行為へのシンプルな対策は、オンラインではなく対面式の試験に戻すことである」と指摘しつつ「AIを対処可能な課題として考えるのではなく、AIの使用を受け入れる教育手法の検討が必要」とも論じています。