GoogleがAIでChromeを自動操作できる「Project Mariner」を発表

Googleが現地時間2024年12月11日に、ブラウザ上の情報を理解して自動操作できるAI「Project Mariner」を発表しました。Project Marinerを使えば「スプレッドシートにまとめた企業名をもとに各企業のメールアドレスを検索してまとめる」といった複雑な操作を自動で実行できます。
Project Mariner - Google DeepMind
https://deepmind.google/technologies/project-mariner/
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
What could the future of human-agent interaction look like in your browser? 🌐
Project Mariner is a research prototype built with Gemini 2.0 that’s able to research information and carry out tasks directed by you through an experimental Chrome extension.
See it in action ↓ pic.twitter.com/HkJ54hOpxk— Google DeepMind (@GoogleDeepMind) December 11, 2024
Project Marinerはユーザーの指示に従って複雑な操作を実行できるAIアシスタントです。ユーザーは「このスプレッドの○○という情報をもとに○○を実行して」といったように自然言語で指示するだけでOK。ユーザーが指示すると指示内容とChromeのスクリーンショットがクラウド上のGeminiに送信され、Geminiの分析結果に基づいてカーソル操作や検索、フォームへの入力などが自動で実行されます。
以下の動画はProject Marinerのデモ。Project Marinerに遂行してほしいタスクを入力するだけで、自動的にAIがそのタスクを理解、分析して順にタスクを遂行しています。
Project Mariner | Solving complex tasks with an AI agent in the Chrome browser [full length] - YouTube
動画内では、Googleスプレッドシートを表示した状態で「この企業リストを暗記する。そして、その企業のウェブサイトを見つけ、連絡を取るためのメールアドレスを調べる。後で使えるように、これを覚えておく」との指示をProject Marinerに提示しています。

すると、Project Marinerはスクリーンショットの撮影を開始。

自動的にこれらの企業のサイトをウェブ上で検索。

目的の企業のサイトを見つけると、問い合わせ用メールアドレスをサイト内から探し出します。

リスト内の企業ごとにこの作業を繰り返します。

一連の作業が完了すると、企業ごとに問い合わせ用メールアドレスをそれぞれ表示してくれます。

また、Project Marinerは、2024年12月11日に発表された「Gemini 2.0」を搭載しており、Gemini 2.0の高度な自然言語理解と推論機能を活用して入力されたリクエストと音声によるリクエストの両方を解釈するとのこと。
Googleのエンジニアであるアディー・オスマニ氏は一例として「ユーザーが『近くの仕事を探して』と尋ねるだけで、Project Marinerはそのリクエストを理解し、関連する求人募集サイトに移動し、ユーザーの場所と好みに基づいて検索をカスタマイズします」と語りました。
"The future of AI is agentic. That includes browsers!"
Imagine having an AI agent in your browser that can help you complete complex tasks, answer your questions, and streamline your workflow.
Today I'm thrilled to share a sneak peek at Project Mariner, a cutting-edge research… pic.twitter.com/KVDa6Fte8U— Addy Osmani (@addyosmani) December 11, 2024
Googleによると、Project Marinerは実世界のウェブタスクでのAIエージェントのパフォーマンスをテストするWebVoyagerにおいて83.5%という高いスコアを残しました。この結果についてGoogleは「AIによるタスクの遂行が必ずしも正確かつ速いとは限りませんが、ブラウザ内でAIエージェントがタスクを行ってくれることが技術的に可能になりつつあることを示しています」と述べています。
We are investing in the frontiers of agentic capabilities with a few early prototypes. Project Mariner is built with Gemini 2.0 and is able to understand and reason across information - pixels, text, code, images + forms - on your browser screen, and then uses that info to… pic.twitter.com/zM1SKahg86— Sundar Pichai (@sundarpichai) December 11, 2024
Project Marinerはセキュリティを重視しており、ユーザーがProject Marinerが何をしているのかを把握するためにアクティブなタブ内でのみ動作するように制限されているほか、商品を購入するなど特定の機密性の高いアクションを実行する際にはユーザーに最終確認を求めます。また、「クレジットカード番号や請求情報の入力」「ウェブサイトのCookieの受け入れ」「利用規約への同意」といったユーザーの権利や財産に直接影響を与える可能性のある動作は制限されています。
そのほか、第三者によるプロンプトインジェクション攻撃が行われた場合でも、Project Marinerはユーザからの指示を優先するように学習されており、外部ソースからの悪意を持った指示に従うことが困難になっています。これにより、電子メールやドキュメント、ウェブサイトに悪意のある指示が隠されていたとしても、ユーザーは詐欺やフィッシング被害に遭いにくくなっているそうです。
Googleによると、記事作成時点でProject Marinerは信頼できるテスターによってテストが行われているとのこと。また、テスターになるためのウェイティングリストも公開されています。
Project Mariner Trusted Tester Waitlist
https://docs.google.com/forms/d/e/1FAIpQLSe2J4BvD48E-57giEiXIDz_yZeqGmX0Q3AvvR_LfzpRat2kGQ/viewform
