AI研究者のライアン・グリーンブラット氏が、AIの一般的な推論能力を評価する指標の「ARC-AGI」において、GPT-4oを工夫して使用することで50%という正答率を達成できたと発表しました。

Getting 50% (SoTA) on ARC-AGI with GPT-4o

https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt



ARC-AGIでは下図のようにいくつかの例と問題が用意されます。例からルールを推測して正しく問題の図に対応する結果を出力できればOK。人間がこのタスクを行うと子どもであっても85%から100%のスコアを出すことができますが、これまでAIが出したARC-AGIの最高スコアは34%であり、数多くのベンチマークの中でも特に人間との差が顕著でした。



上記の問題はシンプルなため特に工夫せずともGPT-4oなら正解することができますが、実際の問題は下図のように複雑です。



グリーンブラット氏のアイデアはGPT-4oに問題から解答を生み出すPythonのプログラムを大量に生成させ、全ての例に適用してみて有望そうなプログラムを使用するというシンプルなもの。実際にはGPT-4oに問題を読み取らせるための表現方法の工夫や、推論を段階的に注意深く進めさせるための具体例を示した数ショットのプロンプト、有望な候補をさらに修正するためのプロンプトなどが必要で、50%のスコアを達成するまでに6日間かかったとのことです。

50%のスコアを出すために実際に使用したコードはGitHubで公開されています。なおグリーンブラット氏によるとARC-AGIのトレーニング用データとテスト用のデータでは難易度が異なっており、トレーニング用のデータの中から一部を抜き出してテストに使用することで72%のスコアを達成できたとのこと。

グリーンブラット氏は6日の間にARC-AGIを解くためのプロンプトを何回も修正してバージョンアップしており、最初のV0ではPythonプログラムを1024個生成させて25%の正答率だったのが、最終バージョンのV2では2048個のプログラムを生成して34%の正答率になりました。

全てのバージョンを組み合わせて使用することで正答率を37%まで向上させ、さらに有望な候補を修正するステップを追加することで50%に到達するとのこと。なお、生成するプログラムの数を増やすことで正答率が向上することが確認できており、グリーンブラット氏は1つの問題当たり200万個のプログラムを作成すれば正答率が70%に到達すると推測しています。



2024年11月10日まで、ARC-AGIで85%以上のスコアを出すオープンモデルのAIを開発した人に最大50万ドル(約7800万円)の賞金が出る「ARC Prize」が開催中ですが、今回グリーンブラット氏はクローズドなGPT-4oを使用しているほか、推論時に過大なコンピューティングリソースを消費しているためARC Prizeの対象ではないとのことです。