OpenAIが新たなAIモデル「OpenAI o1」および「OpenAI o1-mini」を発表しました。段階的に推論を行う「思考の連鎖」テクニックを使用することで複雑な推論を正しく行えるようになり、数学オリンピックの予選で全米500位にランクインしたほか、物理学・生物学・化学の分野で人間の博士レベルの能力を持っているとのことです。

Learning to Reason with LLMs | OpenAI

https://openai.com/index/learning-to-reason-with-llms/



OpenAI o1のパフォーマンスはトレーニングの時間の増加に伴って向上するのはもちろん、推論にかける時間を増加させることでも大きく向上できると述べられています。この現象については今後も調査を続けていくとのこと。



推論に時間をかけた場合、OpenAI o1は数学オリンピック予選や競技プログラミングでGPT-4oを大きく上回る性能を発揮したほか、博士レベルの科学問題においてはGPT-4oと人間の専門家の両方を上回るスコアを獲得しました。なお、下図の比較に登場している「o1 preview」はOpenAI o1の初期バージョンのことです。



また、OpenAI o1は57個のベンチマークのうち54個のベンチマークでGPT-4oよりも高い成績を出したとのこと。



OpenAIのページでは実際の推論の例がいくつか掲載されており、「暗号」の例では「oyfjdnisdr rtqwainr acxz mynzbhhx」が「Think step by step」になるという例を元に「oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz」を解読するタスクが与えられています。



GPT-4oは解読に失敗したのに対し、OpenAI o1-previewは解読することに成功しました。



「Show chain of thought」ボタンをクリックすると、内部でどのような「思考の連鎖」プロセスが行われたのかを表示できます。なお、製品版では思考の連鎖プロセスで出力された内容は「出力トークン」として課金されるものの非開示になると述べられています。



OpenAI o1を競技プログラミングコンテストに出場させると、参加者の上位11%に入賞できました。また、OpenAI o1をプログラミング向けに特化して調整することで上位7%まで成績が伸びたとのこと。



下図は人間による幅広い自由記述のプロンプトに対する応答の評価結果です。人間が記述したプロンプトに対し、GPT-4oとOpenAI o1-previewの応答が匿名で表示され、どちらが優れているかを評価しました。プログラミング・データ分析・数学計算など推論が重要な分野ではOpenAI o1-previewの評価が上回りましたが、文章の記述や編集という分野ではほぼ同等の評価となりました。



また、思考の連鎖プロセスにモデルの動作に関するポリシーを統合することでモデルの安全性が向上しているとのこと。OpenAI o1は多数の安全性ベンチマークのスコアをGPT-4oよりも大きく改善できています。詳しい安全対策についてはシステムカードに記載されています。



同時に発表されたOpenAI o1-miniは幅広い世界知識をカットすることで、プログラミングや数学などSTEM系の能力はOpenAI o1と同等に維持しつつ推論にかかるコストや時間を約5分の1まで減らしたモデルとのこと。単語推論タスクのデモでは、下図の通りGPT-4oは3秒で回答したものの不正解で、OpenAI o1-miniは9秒で正答、OpenAI o1-previewは32秒かけて正答という結果に。



OpenAI o1-previewおよびOpenAI o1-miniモデルはベータ版として登場しており、記事作成時点ではティア5の開発者限定で利用可能になっています。ChatGPT EnterpriseとEduのユーザーは来週以降を目安に両モデルを利用可能になる予定のほか、将来的にはChatGPT FreeユーザーにもOpenAI o1-miniモデルを解放する計画とのことです。