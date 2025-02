OpenAIが、オンライン上の情報をAIモデルに収集させる「Deep research」機能をChatGPTに導入することを発表しました。Deep researchはOpenAIの推論モデルである「o3」をベースにしたAIエージェントで、インターネット上の情報を検索して、推論を重ねた上で調査結果をまとめあげることができます。Introducing deep research | OpenAI

OpenAI unveils a new ChatGPT agent for ‘deep research’ | TechCrunchhttps://techcrunch.com/2025/02/02/openai-unveils-a-new-chatgpt-agent-for-deep-research/OpenAIは、ChatGPTがインターネットへのアクセス機能が欠如していることが大きな課題であり、この制限によって日常生活で使用する多くの情報にモデルがアクセスできない状況が続いていたと述べています。この課題を解決するための機能が、「Deep research」です。Deep researchはインターネット上で複数のステップを踏んだ検索を実行することができ、「コンテンツの発見」「コンテンツの統合」「情報についての推論」という3つの主要な機能を備えているとのこと。さらに、新しい情報を発見するたびに検索計画を動的に適応・更新する能力も持ち合わせているそうです。Deep researchはo3推論モデルをベースに、エンドツーエンドの強化学習を通じて開発されたとのこと。これにより、モデルは複数のステップを踏む検索プロセスを計画・実行し、リアルタイムの情報に応じて軌道修正することができます。さらに、ユーザーがアップロードしたファイルの閲覧、Pythonツールを使用した計算や画像・プロット作成、ウェブサイトからの画像の埋め込みなども可能です。モデルの性能について、Deep researchはCenter for AI SafetyとScale AIが公開した「Humanity's Last Exam」というベンチマークで26.6%の正確性を達成。GPT-4o(3.3%)、Grok-2(3.8%)、Claude 3.5 Sonnet(4.3%)、Gemini Thinking(6.2%)、OpenAI o1(9.1%)、DeepSeek-R1(9.4%)、OpenAI o3-mini medium(10.5%)、OpenAI o3-mini high(13.0%)といった結果を大きく上回りました。OpenAIは、Deep researchの問題解決プロセスは、オンラインリサーチを活用する人間の思考プロセスと非常に似ていることを強調しています。また、実世界の問題に対するAIの評価を行う「GAIA」というパブリックベンチマークで、Deep Researchは、推論能力、マルチモーダル機能、ウェブブラウジング、ツール使用の熟練度などを要する課題において、新たな最高記録を達成しました。具体的な数値として、Level 1では74.29%(pass@1)および78.66%(cons@64)、Level 2では69.06%(pass@1)および73.21%(cons@64)、Level 3では47.6%(pass@1)および58.03%(cons@64)を記録し、平均でそれぞれ67.36%と72.57%を達成しました。これは従来の最高記録である63.64%を上回る結果となっています。OpenAIはDeep researchの革新的な特徴として、従来のモデルにあった応答時間の制約を完全に取り除いたことを挙げています。通常のモデルが比較的速い応答を返すのに対し、Deep researchは5分から30分という長い処理時間をかけることもあります。OpenAIはこの長い処理時間を、自律的なタスク実行の実現と汎用(はんよう)人工知能、すなわちAGI開発のロードマップにおける重要な進展として肯定的に捉えています。Deep researchの出力は、アナリストや分野の専門家が作成するような、包括的で完全に引用付きの研究論文に相当するものとなるとOpenAIは評価。その用途は多岐にわたり、知識労働関連のタスクから、広範なウェブ検索が必要な作業まで対応可能で、特定の条件に合った商品の検索やプレゼンテーション用のコンテンツ作成などにも活用できると、OpenAIは述べています。実際の機能については、以下のOpenAIによる発表から見ることができます。なお、この発表ライブ配信は日本の東京で撮影されたとのこと。Introduction to Deep research - YouTubeChatGPTに、「iOSとAndroidの導入率、言語学習希望者の割合、過去数年間のスマートフォン普及率の変化について、先進国と発展途上国の比較データを出力する」ように命令し、さらに「表を含むレポート形式での出力と最も有望な新興市場に関する明確な推奨事項」を要求します。プロンプトを入力したら、「Deep research」のボタンをクリック。すると、ChatGPTが要求内容を明確にするための質問をいくつか返してきました。これは調査を始める前に、スマートフォン普及率の定義方法や関心度の測定方法など、要件を正確に把握するためとのこと。ユーザーがこれらの質問に答えると、ChatGPTは調査を開始しました。その推論の経緯が右カラムに表示されます。OpenAIは「Deep Researchは、様々な知識労働の分野で活用できます。市場調査だけでなく、物理学、コンピューターサイエンス、生物学などの学術分野でも利用可能です。調査過程はサイドバーに表示され、モデルの推論プロセスを確認することができます。モデルは実際にウェブページを開き、画像、表、PDFなどの様々なコンテンツを分析し、その情報を基に次の調査ステップを決定していきます」と述べています。リリーススケジュールについては、まず2025年2月3日の発表時点でPro版でサービスを開始し、その後にPlus版、チーム版、教育機関向け、そしてエンタープライズ版へと順次サービスが展開されるとのことです。