高精度な文章を生成する「GPT-3」や「ChatGPT」の登場を受けて、「どうすれば人間が書いた文章とAIが書いた文章を見分けることができるのか?」という課題が浮上しています。そんな中、アメリカのプリンストン大学に在籍するEdward Tian氏は、人間が書いた文章とChatGPTが書いた文章を見分けるツール「GPTZero」を公開し、大きな話題を集めました。これに対し、テクノロジー関連のブログを運営する大学生のJacob Gonzales氏が、GPTZeroの精度はどれほどなのかを医学論文でテストした結果を報告しています。

GPTZero Case Study (Exploring False Positives) | Gonzo Knows

https://gonzoknows.com/posts/GPTZero-Case-Study/

Tian氏が公開したGPTZeroは、入力した文章が人間によって書かれたものなのか、それともChatGPTによって書かれたものなのかを判別するために作成されたツールです。GPTZeroはChatGPTと同様のデータセットで訓練されており、テキストの複雑度やバリエーションを検証してChatGPTが書いた可能性が高い文章を見分けるとのこと。

Tian氏はアメリカの雑誌・The New Yorkerに掲載された人間のライターによる文章と、ChatGPTによって生成された文章をGPTZeroに入力したデモンストレーション動画を公開しています。GPTZeroの公開後、Tian氏のもとには世界中の教育関係者から連絡があったそうです。



しかし、GPTZeroは100%の精度で人間が書いた文章とChatGPTの文章を見分けられるわけではなく、実際にはどれほどの精度なのか不明です。そこでGonzales氏は、2021年に発表された新型コロナウイルス感染症(COVID-19)についての論文を利用し、GPTZeroがどう判断するのかをチェックしてみました。

論文の最初の段落を入力したところ、GPTZeroは「50%以上がAIで書かれたもの」という判断を下したとのこと。しかし、当該論文が発表された時点ではChatGPTが登場しておらず、論文は複数のアメリカ疾病予防管理センター(CDC)の研究者によって書かれたものであるため、これは誤検知だとGonzales氏は指摘しています。



その後、Gonzales氏はアメリカ国立医学図書館がオンラインで公開している神経学関連の論文20件を使用し、アブストラクトの部分をGPTZeroに入力しました。その結果、20件中11件の論文が「AIによって書かれた可能性がある」と判断されましたが、これらの論文はほとんどが2020年以前に発表されたものであり、GPTZeroによる誤検知だったとGonzales氏は主張しています。



実際にGonzales氏の調査で「AIによって書かれた可能性が高い」と誤検知されてしまった論文は以下の通り。

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7164350/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8093009/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7668548/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8055322/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5894931/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6105044/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3776536/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5047042/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4762419/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7538222/

・https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3590056/

なお、GPTZeroを利用するにはウェイトリストに登録する必要がありますが、初回のみウェブから無料で利用できたため、試しに英語版Wikipediaの冒頭部分をGPTZeroに入力してみました。



すると、「Your text is likely to be written entirely by AI(文章はすべてAIによって書かれた可能性が高い)」と判断されてしまいました。



Gonzales氏は、商用ソフトウェアにおける不正確さは多くの問題を引き起こす可能性があると指摘。「私が個人的に考えている最大の問題は、教育現場における盗用の検出です。もし、教育機関が欠陥のあるAI検出プログラムに従っていたために学生が盗用で不当に訴えられた場合、どんな学生にとっても不利益になりかねません」と述べました。