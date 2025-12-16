Image: Stock-Asso / Shutterstock.com

そもそもテスト方法がAIに有利なだけ…？

AIのほうが人間より仕事ができる脅威論のような話を、よく耳にするようになりました。確かにスゴいのは理解できます。でも、その検証データのなかには、そのまま信じないほうがよいレベルのものもあると警告する研究論文が、オックスフォード大学のインターネット研究所（Oxford Internet Institute）から発表されました。

ベンチマークテストの信頼性は？

同研究は、AIの評価に使用されてきた445種類のベンチマークテストツールを調査分析。実際に資格試験の問題を解かせてみるものから、プログラミングのコード修正能力を計るものまで、さまざまなAIモデルの性能をスコア化する手法が用いられています。

各AIモデルの開発元は、こうしたベンチマークテストを利用することで、自社の提供するAIがどれほど優れているかを可視化し、その有用性をアピールしてきました。人間だとこれくらいのスコアしか出ないけど、ウチのAIを使ったらこんなにもスゴいんだよって。でも、本当にそのテスト結果は信頼できるのかに疑問を呈する研究発表となっています。

そこまでAIは賢くない…？

たとえば今回の研究では、大規模言語モデル（LLM）の算術推論能力を測定するために用いられてきたGrade School Math 8K（GSM8K）を分析。ただ計算問題を解かせるのではなく、文章題を理解して答えを出せるかなどが評価されるようになっています。

このGSM8Kにおいてハイスコアを記録したAIモデルなので、数学的思考でタスクを次々こなせますよ〜なんて売り込んだりもしてきたわけです。しかし研究チームは、そもそもAIは膨大な問題に対する解答を記憶できることに着目。算術推論能力を駆使しているというより、ただデータベースにある似たような過去問から回答を高速で導き出しているに過ぎないものも少なくなかったようです。AIあるあるでしょうか？

結論として、AIモデルの真価を示せるベンチマークテストにするには、単に解答を返せばスコア化されるような仕組みの見直しが提唱されています。思考能力を駆使した経過がわかる文章を書かせ、どのように課題を理解して解決にいたったかまで評価すれば、そこまで高いスコアにならないとの指摘まであったり。指示を与えられるのではなく、本当に自分で考えて仕事ができるAIって、まだそんなにないのかもしれませんね。

Source: Oxford Internet Institute