OpenAIが2025年1月の第4週に、ユーザーに代わってウェブブラウザ上で複雑なタスクを実行できるAIエージェント「Operator」をリリース予定とThe Informationが報じました。報道によると、OpneAIだけでなくGoogleやAnthropicといったAI企業も同様のAIエージェントの開発に取り組んでいるそうです。

Confirmed - the ChatGPT macOS desktop app has hidden options to define shortcuts for the desktop launcher to "Toggle Operator" and "Force Quit Operator" https://t.co/rSFobi4iPN pic.twitter.com/j19YSlexAS— Tibor Blaho (@btibor91) January 19, 2025

報道によると、OpenAIはChatGPTの新機能としてOperatorを開発しているとのこと。Operatorはユーザーに変わってブラウザ上での複雑なタスクを実行してくれるAIエージェントで、ユーザーには旅行・食事・イベントなどカテゴリ別のプロンプトが提案されるそうです。例えば、ユーザーがOperatorに「ニューヨークからマウイ島への、夜遅くに到着しないフライト」を探すよう依頼すると、Operatorはチケット購入前のフライト情報を検索・提示してくれるので、ユーザーは自身の個人情報などを入力するだけでフライトを予約できるようになります。他にも、Operatorにレストランの予約をお願いすれば、Operatorは時間や参加人数などの必要情報をユーザーに質問し、条件に合ったレストランを探してくれるわけです。なお、Operatorが動作している間、ユーザーは画面を操作することができる模様。The Informationによると、OperatorはGmailアカウントを制御することはできないものの、「他のサイトにログインし、セッション間でログインしたままにできる」とのこと。ソフトウェアエンジニアでありAI製品のリーカーとしても有名なTibor Blaho氏も、OpenAIがChatGPTにOperatorを間もなく追加すると指摘しています。同氏はMac版ChatGPTアプリで、「Toggle Operator」と「Force Quite Operator」という新しいオプションを発見したと報告。ただし、このオプションは記事作成時点では非表示になっているとのことです。すでにチャットAI・Claudeの開発元であるAnthropicが、OperatorのようなAIにPCを操作させる機能「computer use」のプレビュー版を公開しています。ただし、「computer use」については初期のテスターから「何をすればいいか分からないときにループに陥る」「タスクを忘れてGoogle Imagesで自然の写真を見るなどまったく別のことをし始める」「中途半端な出来」などの苦情が寄せられています。チャットAI「Claude」にPCを自動操作する機能が追加される&「Claude 3.5 Sonnet」の性能向上版と軽量モデル「Claude 3.5 Haiku」も登場 - GIGAZINEGoogleも「航空券の予約」や「製品の購入」をブラウザ上で実行可能なAIエージェント「Jarvis」を開発中であることが報じられています。Googleが「航空券の予約」や「製品の購入」をブラウザ上で実行するAI機能「Jarvis」をChromeに導入する予定 - GIGAZINEOpenAIのOperator開発に詳しいという匿名の人物によると、同社は複数のAIエージェントを開発しており、最も完成に近いのがユーザーに変わってウェブブラウザを操作することができる「汎用」エージェントだそうです。なお、OpenAIが開発しているAIエージェントの名称がOperatorであると最初に報じたのは、2024年11月のBloombergの報道でした。Operatorの使用シーンとして、テクノロジーメディアのGizmodoは「コンピューターに詳しくない高齢者がOperatorにメールの送信を手伝ってもらうよう依頼する」といった使用例を挙げています。テクノロジーに精通した人には不要な手助けかもしれませんが、高齢者やインターネットに疎い人にとっては、簡単なタスクを完了することでさえ困難なケースがあります。Operatorはそういったユーザー向けの機能になるとGizmodoは指摘。他にも、企業が新しいウェブサイトやサービスが適切に機能するかどうかをテストする際に、Operatorを使用することになるかもしれないとしています。ただし、AIエージェントには潜在的なリスクが存在しているとGizmodoは指摘しました。実際、エンドユーザークライアントを制御可能なボットには「Redditにマーケティングスパムを自動投稿するボット」などが存在しており、これらは自動化をブロックするためのAPIをバイパス可能です。そのため、OpneAIはOperatorが悪用されることを防ぐために、何らかの策を講じる必要があると指摘しています。AIエージェントは基本的に、ユーザーのブラウザのスクリーンショットを撮影し、その画像をOpneAIのサーバーに送信して分析することで機能しているそうです。AIモデルが割り当てられたタスクを完了するために必要なステップを決定し、コマンドがブラウザに送り返され、マウスやキーボードを使用した操作が実行されます。Operatorには、テキストや画像など複数の形式の入力を解釈することができるマルチモーダルAIが利用されることになるだろうとGizmodoは予測しています。