OpenAIが、ユーザーの指示に従って自動でブラウザを操作するAI「Operator」の研究プレビュー版を発表すると同時に、Operatorのモデルである「Computer-Using Agent(CUA)」についてのデータを公表しました。

Introducing Operator research preview | OpenAI

https://openai.com/index/introducing-operator/

Computer-Using Agent | OpenAI

https://openai.com/index/computer-using-agent/





Operatorのモデルである「Computer-Using Agent(CUA)」は、GPT-4oの思考能力を持ちつつ人間と同じように画面を見てボタンやメニュー、テキストフィールドなどを操作できるように追加のトレーニングが行われています。人間と同じ操作体系を使用するため、各種サービスやアプリ固有のAPIを使用せずにすみ、タスクを柔軟に実行できるというメリットがあります。

今回リリースされた研究プレビュー版のOperatorに使用されているCUAは、コンピューター操作およびブラウザ操作の両方の分野において新たな最先端を確立したとのこと。それぞれの分野における以前の最先端モデルとの比較は以下の通りです。PC操作については人間の72.4%に比べ約34ポイント低い38.1%のスコアしか獲得できませんでしたが、ブラウザ操作では58.1%のスコアを獲得し、人間との差が約20ポイントまで縮みました。

ベンチマークタイプベンチマークコンピュータの使用(ユニバーサルインターフェース)ウェブブラウジングAI人間OpenAI CUA以前の最先端技術(SOTA)以前の最先端技術(SOTA)コンピュータ操作OSWorld38.1%22.0%-72.4%ブラウザ操作WebArena58.1%36.2%57.1%78.2%WebVoyager87.0%56.0%87.0%-

モデルの仕組みは以下の通り。CUAが「画面の状態を認識」「次の操作を思考」「実行」という3ステップをタスクの完了まで繰り返すようになっています。画面の状態はスクリーンショットとしてコンテキストに追加されるとのこと。



OpenAIのブログでは、複数の例について実際にブラウザ操作タスクをこなすまでの全ステップの様子が詳しく掲載されています。以下は「Cambridge DictionaryのPlusセクションに行って推奨される文法クイズをログインせずに行いスコアを教えてください」というプロンプトの例です。



AIがサイトを開きました。



「Plus」の文字を見つけ、クリックしています。



広告が出現しますが適切に「Close」をクリックできました。



「推奨される文法クイズ」を探すためにスクロール。



「文法クイズ」を発見し、クリックしています。



こうしたステップを合計152回遂行した後、以下の様にスコアを報告してタスク完了となりました。



一方、PC操作タスクは人間よりも大きく劣るものの、以前の最先端モデルであるClaude 3.5 sonnetを大きく上回りました。



今回OpenAIがリリースしたブラウザ自動操作AIエージェントのOperatorは、CUAにブラウザを組み合わせ、プロンプトの指示だけでその後のブラウザ操作を自動で行ってくれるようになっています。ユーザーはAIの操作の途中で操作を引き継ぐ事も可能とのこと。ログインや支払い、CAPTCHAなどユーザーの支援が必要なタスクが出現した場合、ユーザーに依頼するようトレーニングされています。

記事作成時点でOperatorの研究プレビュー版はアメリカ在住かつProプランを契約しているユーザー限定で利用可能となっています。