AI企業のAnthropicがAIモデル「Claude 3.5 Sonnet」の性能強化版と、軽量かつ高性能な新モデル「Claude 3.5 Haiku」を発表しました。同時に、ClaudeにPCを操作させられる「computer use」という機能のパブリックベータテストも始まっています。

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic

https://www.anthropic.com/news/3-5-models-and-computer-use

Developing a computer use model \ Anthropic

https://www.anthropic.com/research/developing-computer-use

◆Claude 3.5 Sonnetの性能向上版

Claude 3.5 Sonnetの性能向上版は従来版と比べてあらゆる面で性能が向上しており、数学性能を除くほとんどのテストでGPT-4oやGemini 1.5 Proといった競合モデルを超える性能を示しています。また、表には記載されていませんが、コーディング能力ではOpenAI o1を上回る性能を示したそうです。



◆Claude 3.5 Haiku

Claude 3.5 Haikuはシステム負荷の低さと性能の高さを両立したモデルで、前世代モデルのClaude 3 Haikuを大きく超える性能を有しています。また、Claude 3.5 Haikuはコーディング能力の高さも特徴としています。



◆PC操作機能「computer use」

「computer use」は、ユーザーの指示に従ってクリック操作やキーボード入力を実行する機能です。ユーザーは「日の出を観察するための計画を立てて」といったようにタスクの内容を指示するだけでOKで、使用するアプリを指定する必要はありません。

例えば、以下の動画ではClaudeに「日の出の観察スポットを検索し、観察スポットまでの移動時間を調べ、カレンダーに予定を記入する」という操作を実行させています。

Claude | Computer use for orchestrating tasks - YouTube

Claudeに「友達がサンフランシスコに来るので、ゴールデンゲートブリッジから日の出を観察したい。出発地点はパシフィックハイツ。いい感じの観察スポットを探し、日の出の時間と観察スポットまでの移動時間を調べ、日の出に間に合うようにカレンダーに登録して」と入力。



すると、Claudeが「Chromeを起動してGoogleで『ゴールデンゲートブリッジの日の出観察スポット』を検索」という操作を実行します。



さらに、マップアプリを開いて「Google検索で見つけた観察スポットまでの移動時間」を調査。



最後にカレンダーアプリを開いて日の出観察予定を登録しました。予定のメモ欄には出発時刻や目的地などが記載されています。



また、ClaudeはPC内でウェブアプリにアクセスして操作を実行することも可能。以下の例では「ClaudeがClaudeにアクセスしてウェブサイトのコードを生成する」という様子を確認できます。

Claude | Computer use for coding - YouTube

なお、「computer use」は記事作成時点ではパブリックベータ版という扱いで、不自然な動作をすることも多々あるとのこと。Anthropicは「『computer use』の性能は、今後数カ月以内に急速に向上すると期待している」と述べています。