ブラウザ操作を自動化するにはPlaywrightやSeleniumを使って操作手順を細かく指示する必要がありました。そこでLLMが画面内容を判断し、自然言語の指示からクリック・入力・検索を実行できるオープンソース「Browser-Use」が公開されています。

Browser Use - The way AI uses the internet

https://browser-use.com/



browser-use/browser-use: Make websites accessible for AI agents. Automate tasks online with ease.

https://github.com/browser-use/browser-use

◆Browser Useを利用するメリット

実際にブラウザを操作することでAIが正確に情報を得ることが可能になります。

例としてGoogle Geminiを利用しGIGAZINEの「試食」カテゴリの最新記事のタイトルを3件分取得してみます。



「ピザポテト」・「マックフルーリー」・「麻婆たまご丼」の3件の返答。



しかし、実際は以下の画像の通り「二代目ベビーボティーバーガー」・「絶品牛重」・「マルちゃんでかまるバリシャキ辛もやし味噌ラーメン激辛」が実際のその時点での最新記事でした。AIがもっともらしく間違った情報を返答するハルシネーションが起こり、間違った情報を得ることになります。



Browser Useで同じ指示を与えてみます。指示内容を記入し「Run Task」をクリック。



ページ内にリモートブラウザが起動し、指定された手順の内容を実際に見ながら操作するような動きで、情報を探している様子が確認できます。最新記事3件分のタイトルも正しく取得できています。



同じ操作をPlaywrightを利用して実現しようとすると、ページのhtmlの構造を把握しXPathなどの要素を一字一句間違えずに書く必要がありますが、Browser Useだと自然言語で操作を書くだけで実現できるのも大きなメリットです。

クラウド版においては「78.0%」の成功率という統計が示されており、クラウド内のリモートブラウザがより人間らしい動きをしてBot判定を回避しているとのこと。



ログイン作業を事前に手動で行うことで認証を通した状態での作業にも対応できます。

◆Browser Use登録方法

クラウドサービス版の登録方法です。公式サイトの「Get Started」をクリック。



登録フォームが表示されるので「Email」にメールアドレス、「Password」および「Repeat Password」にパスワードを入力して「Sign Up」をクリック。



確認メールが登録したメールアドレスに届くので「Verify my email」をクリック。



再度ブラウザで確認画面が表示されるので「Verify」をクリック。



アンケートは「Skip」で飛ばすこともできますが、回答することで無料枠を増やすことができます。「How did you find us?」など、いくつかの質問に答えていきます。



登録が完了すると初期画面が表示されるので画面上部にある「previous version」への切り替えリンクをクリック。



プレビュー版では最新の専用モデル「Browser Use 2.0」を試すことが可能です。



なお、サイトの利用規約で自動データ収集ツールの利用を制限しているケースがあるので、利用には慎重な判断が必要です。