AnthropicがClaude 3.5 Sonnetを突如発表、ベンチマーク結果はGPT-4oに匹敵
チャットボットAI「Claude」を開発するAnthropicが新モデルとなる「Claude 3.5 Sonnet」を2024年6月21日に発表しました。これは今後リリースされるClaude 3.5ファミリーの最初となるモデルで、ベンチマーク結果はOpenAIのGPT-4oに匹敵するとのことです。
Introducing Claude 3.5 Sonnet \ Anthropic
https://www.anthropic.com/news/claude-3-5-sonnet
Claude 3.5 SonnetはClaude 3 Opusと比較してパフォーマンスとコスト効率が向上しており、Claude 3.5 Sonnetの動作速度はClaude 3 Opusの2倍に匹敵するとのこと。また、エージェントコーディング評価では、Claude 3.5 Sonnetは問題の64%を解決し、38%を解決したClaude 3 Opusを上回ったそうです。
Anthropicの公開したベンチマーク結果を見ると、Claude 3.5 Sonnetは8項目のうち、「推論(GPQA)」「知識(MMLU)」「コーディング(HumanEval)」「数学問題の翻訳(MGSM)」「テキスト推論(DROP)」の5項目で、GPT-4oと同等かそれ以上の結果を出しています。
そして、Anthropicは「Claude 3.5 Sonnetはこれまでで最も強力なビジョンモデルであり、標準的なビジョンベンチマークでClaude 3 Opusを上回りました」と述べ、チャートやグラフの解釈など、視覚的な推論を必要とするタスクで特に性能が向上しており、不完全な画像からテキストを正確に書き起こすこともできるとアピールしました。Anthropicは、実際にClaude 3.5 Sonnetが視覚タスクをこなすムービーを公開しています。
Claude 3.5 Sonnet for vision - YouTube
視覚的推論に関するベンチマークの結果を、Claude 3 Opus・GPT-4o・Gemini 1.5 Proと比較した表が以下。
さらに、AnthropicはClaude.aiに「Artifacts」という新機能を実装したことを発表しました。ArtifactsはClaudeにコードやテキストドキュメント、ウェブサイトデザインなどのコンテンツを生成するように依頼した時に、回答の中ではなく専用ウィンドウにコンテンツを表示する機能。Artifactsについては、以下のムービーを見るとどういう機能なのかが一発でわかります。
Claude 3.5 Sonnet for sparking creativity - YouTube
安全性とプライバシーについては、Antropicはイギリスの人工知能安全研究所(UK AISI)にClaude 3.5 Sonnetの安全性評価を依頼し、導入前に改良を重ねていたとのこと。また、外部の専門家からのポリシーフィードバックを統合することで、Claude 3.5 Sonnetはさまざまな不正使用に対処できるとAnthropicはアピールしています。
Claude 3.5 SonnetはClaude.aiおよびClaudeのiOSアプリで無料で利用可能。有料プランであるClaude ProおよびTeamの加入者であれば、より高いレート制限でアクセス可能です。また、Anthropic API、Amazon Bedrock、Google CloudのVertex AIからも利用可能で、料金は入力トークン100万個当たり3ドル(約477円)、出力トークン100万個あたり15ドル(約2390円)となっています。
Anthropicは、今後もClaude 3.5モデルの知性・速度・コストの改善を続け、2024年後半にClaude 3.5 HaikuとClaude 3.5 Opusをリリースする予定だとしています。