AI企業のScale AIおよびAI研究組織のCenter for AI Safety(CAIS)が共同で、AIの知識の限界をテストするために設計したベンチマーク「人類最後の試験(Humanity's Last Exam)」を公開しました。既存の主要モデルのうち、正解率10%を超えるモデルは存在しなかったとのことです。

Scale AI and CAIS Unveil Results of Humanity’s Last Exam

https://scale.com/blog/humanitys-last-exam-results



Humanity's Last Exam - Publication Ready Humanity's Last Exam.pdf

(PDFファイル)https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Publication%20Ready%20Humanity%27s%20Last%20Exam.pdf

A Test So Hard No AI System Can Pass It - Yet - The New York Times

https://www.nytimes.com/2025/01/23/technology/ai-test-humanitys-last-exam.html

「人類最後の試験」は、数学や人文科学、自然科学など幅広い分野の問題を詰め込んだベンチマークです。各問題は大学教授や著名な数学者などから出題されたものを厳選したものばかりで、どれも答えは存在するものの解くのが非常に難しい問題です。問題を提供したカリフォルニア大学バークレー校の素粒子理論の博士研究員、ケビン・チョウ氏は「採用された問題はどれも大学院試験で出題される範囲のものでした」と述べています。

生態学の分野では、「アマツバメ目のハチドリは、尾羽下制筋の広がった交差状の腱膜の尾側外側部分に埋め込まれた、左右対になった楕円形の種子骨を持つ。この種子骨によって支えられている腱ペアはいくつあるか?数字で答えよ」などの問題が出題されます。

基本的には多肢選択式および短答式で答える問題で、全部で3000問あります。Scale AIとCAISがこのベンチマークをOpenAIの「GPT-4o」やAnthropicの「Claude 3.5 Sonnet」、Googleの「Gemini 1.5 Pro」など複数のAIモデルに出題したところ、正解率10%を超えるモデルはなく、最高スコアは高い推論能力を備えたOpenAI「o1」の8.3%だったとのことです。



既存のテストでは高得点を取るような優れたモデルが撃沈したことに対し、CAISの共同設立者でエグゼクティブ・ディレクターのダン・ヘンドリクス氏は「モデルの進歩の速さを予測することはできない」と言及。今後1年の間に正解率50%を上回るモデルが出てくるだろうとの見方を示しました。

このようなベンチマークを作成した理由には、AIの進歩速度が早すぎて既存のベンチマークでは正確性を測れないことが背景にあります。例えば、ヘンドリクス氏が2021年に提案して広く使われるようになったMATHベンチマークだと、発表当時は10%を超えるモデルは存在しなかったのに、3年後には90%に到達するモデルが現れています。

中国のAI企業DeepSeekがOpenAI o1に匹敵する推論AIモデル「DeepSeek-R1-Lite-Preview」公開、オープンソース化する計画も - GIGAZINE



Scale AIのリサーチ・ディレクターであるサマー・ユエ氏は、「データセットを研究コミュニティに公開し、既存のモデルの限界を探り続けながらさらに深く掘り下げ、新しいAIモデルを評価する予定です。この『人類最後の試験』で、究極のテストになることを目指して細心の注意を払って設計し、世界最先端のモデルに挑戦します」と述べました。