OpenAIがAIの科学能力を測定するベンチマークテスト「GeneBench-Pro」を発表

データを確認したAIが、そのデータがノイズなのか有意なものなのかを判断した上で解析を行えるかどうかを測る計算生物学のベンチマーク「GeneBench-Pro」がOpenAIから発表されました。このベンチマークで測定した上でAIを改善していけば、科学的発見を大幅に加速できる可能性があると期待されています。
Introducing GeneBench-Pro | OpenAI
We’re introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can navigate messy biological data, choose the right analysis path, and make judgment calls that real computational research depends on.https://t.co/AsilnnSxnE— OpenAI (@OpenAI) June 30, 2026
OpenAIは「科学データには手順書が付属していることはほとんどありません。研究者は、あるパターンが生物学的な現象を反映しているのか、それともノイズなのか、データが問いを裏付けるものなのか、そしてそれぞれの結果に基づいて次に何をすべきかを判断しなければなりません。AIエージェントは複雑な解析を実行する能力をますます高めていますが、実際の科学研究では、事実を思い出したり事前に定義されたワークフローに従ったりするだけではなく、このような高度な判断を下すことも不可欠です」と指摘。こうした高度な判断を下す能力がAIにあるかどうかを測定できるベンチマークテストがGeneBench-Proです。
GeneBench-Proは、実際の科学研究で行われるような前提条件の修正、曖昧さの処理、適切な分析経路の選択といった高次の能力を正確に測定するために設計されています。GeneBench-Proの各問題では現実的だが整理されていないデータセットや実験背景などが含まれており、AIが正しい回答を導くにはデータを探索して適切な解析手法を選択し、反復的な実験プロセスを実施して最終的な回答を提示しなければなりません。
GeneBench-Proを実際のモデルでテストしたところ、OpenAIの最も高性能なモデルである「GPT-5.6 Sol」は最高レベルの推論設定で28.7%、最上位「Pro」で31.5%の合格率を達成したとのこと。GeneBenchの開発が始まった頃、当時の最新モデルであった「GPT-5」のスコアは5%未満だったそうで、OpenAIは「モデルが急速に進化していることを示しています。現在の進歩のペースが続けば、このベンチマークは年末までに飽和する可能性があります」と述べています。

結果はテスト時の計算量を増やすことの効果も示しています。最も低い推論レベルではGPT-5.6 Solの合格率は1桁台にとどまりますが、最高の推論レベルでは約6倍に伸びたとのこと。

OpenAIは「GeneBench-Proの問題の難易度を考慮すると、GPT-5.6 Sol(Pro)が31.5%という結果を達成したことは非常に注目すべきものです。人間のレビュアーは、GeneBench-Proの問題1問を人間の専門家が解くには約20〜40時間かかると見積もりました。現在のAIエージェントはまだ人間の専門家を置き換えるほど信頼性は高くありませんが、推論コストは人件費を大きく下回ります。現時点の能力でも、部分的な自動化によって経済的・科学的に大きな価値を生み出せる可能性があります」と述べました。
それでも、最先端モデルが依然として3分の1未満の問題しか解けていないという事実から、改善の余地が大きいとOpenAIは指摘。特に難しい問題に対して「部分的な進展は示せるものの推論を最後まで完結させられない」という課題があるそうです。
モデルがどこで失敗しているのかを明らかにすることでさらなる改善が見込まれるため、OpenAIは「もしエージェントがこの種の解析を確実に自動化できるようになれば、科学的発見を大幅に加速できる可能性があります」と期待を込めました。
