Image: Anthropic

9月30日にAnthropic（アンスロピック）が秋の大アップデートをアナウンス、新しい主力AIモデル「Claude Sonnet 4.5」がリリースされました。

Anthropicは、ChatGPTのOpenAI、GeminiとNano BananaのGoogleと並ぶ、大AI企業のひとつ。Claudeは開発者の評判がいいAIサービスです。

興味深い内容が多かったので、ざっとまとめておきます。

発表されたものまとめ

まず、発表されたものを一通り。

1. 新モデル Claude Sonnet 4.5リリース - 現状最高水準の性能のAI 2. Claude APIの新機能 - コンテキスト編集機能：トークン制限が近づいたときに「古い記憶」を圧縮。処理をさらに継続できるようにする機能 - メモリ管理ツール：AIが学んで記録し、活かすようになる機能 3. 「Claude」チャットボットアプリの新機能 - コード実行＆ファイル作成に対応 - Claudeにブラウザ作業をやってもらうChrome拡張機能がMaxユーザーに開放へ 4. AI駆動開発ツール「Claude Code」のアップデート - チェックポイント機能：開発中に「過去の状態に戻せる」機能 - ターミナルインターフェース刷新 - VS Code拡張が登場（DL先） 5. Claude Code SDKが再構築され、名前はClaude Agent SDKに - 対応するエージェントの設計手法が公開されています

気になったところ

1. Claude Sonnet 4.5とGPT-5・Gemini 2.5 Pro、いちばんいいのはどれ？

今の最強AIはどれになったんでしょうか？ Anthropicによるベンチマーク比較を読み取りつつ考えてみます。

1枚目 Image: Anthropic

2枚目 Image: Anthropic

何を比べた表なのか？

大きく分けて、3つの能力が比較されています。

1. エージェント能力：コーディングやコンピュータ操作をし、時には人間と対話しながら問題を解決する能力（1枚目Computer useまで）

2. 推論能力：科学知識や英語以外の言語、マルチモーダルが絡む問題を解く能力（1枚目後半）

3. ミスやヤバい行動をしない能力（2枚目）

Sonnet 4.5の特徴

- コーディング能力（SWE-bench Verified）が頭一つ抜けている

- エージェント性能も最高水準（Terminal-Bench〜τ2-bench）

- PCを操作する能力が優れている（Computer use/OSWorld）。Claude for Chrome（後述）でどの程度のことができるか気になる

- ユーザーに不利益をもたらす行動（嘘の報告をしたりプロンプトインジェクションに従ってしまうとか）が少ない（Misaligned behavior scores、低いほうがよい）

GPT-5の立ち位置

- マルチモーダル性能（MMMU）と多言語性能（MMMLU）に優れている。日本語で使うならGPT-5がベスト？

- それ以外も高水準。Sonnet 4.5のライバル

Gemini 2.5 Proの立ち位置

- 空欄が多いが、比較可能な項目は明確に負けている。特に「Misaligned behavior score」は42%ほどあり、信頼性の評価でSonnet 4.5・GPT-5に大きな差をつけられている

- GPT-5とGemini 2.5 Proで重視された「Humanity's Last Exam」（知性の限界を問う学術ベンチマーク）などをSonnet 4.5がやっていないことに注意

- ただ、エージェント能力は本当に水を開けられているかも。関連したベンチマークがほとんど公開されておらず、エージェントモードもないため高い印象もありません。

と、出された情報ベースで考えてみましたが、最近は複数モデルに同じプロンプトを入れていちばんいい回答をとることが多いです。「他と同じ回答に収束しない個性」が全モデルにあるのがいちばん嬉しいかも。

GPT-5、Gemini 2.5 Proはともに設計思想が異なりつつも高性能に仕上がっていました。Sonnet 4.5にも期待してよさそうな感じはしますね。

Claude既存モデルとの比較

既存モデルとの性能比較の一部 Image: Anthropic

- ほとんどの項目で既存モデルを上回り、「基本はSonnet 4.5でOK」という感じ

- Sonnet 4.5は汎用高性能モデル。公式の表現では「ほとんどのタスクにおいて最高性能。コーディングや複雑なエージェントシステムに向く」

- API料金は入力3ドル/1Mトークン・出力15ドル/1Mトークン（Sonnet 4と同じ）

2. Claude API：「AIの記憶をフル活用する機能」がスゴそう

AIモデルには「記憶（処理できるデータ量）の限界」があり、限界に達するとそれ以上うまく処理できなくなります。これを解消するのが新しく追加された「コンテキスト編集機能」です。

Image: Anthropic

記憶（コンテキスト）上限に達すると、既に処理が終わった会話の記録などを圧縮してアキを作り、もっと処理できるようにするという技術です。

開発者が活用する機能なので、一般ユーザーが効果を実感できるのはまだ先だと思いますが、「より多く」「より長く」「より一貫した」処理が実現できるのではないかと。

パートナー企業のお褒めの声の中にこれを活かしたと思われるものがありましたが、30時間コーディング作業し続けたはパンチあります。

Claude Sonnet 4.5は私たちの期待値を根本から変えました──30時間以上にわたる自律的なコーディング作業を可能にし、当社エンジニアが従来数ヶ月かかっていた大規模なアーキテクチャ作業を大幅に短縮しつつ、巨大なコードベース全体にわたって一貫性を維持できるようにしました。 Sean Ward CEO and Co-Founder, iGent AI社

また、「メモリ管理機能」というそのものズバリな機能も実装されています。これはAIモデルがプロジェクトを跨いで利用できる「記憶」を残す機能です。作業のたびに学習し、知識をデータとして残し、次の作業時に参照します。こちらも出力の一貫性などを向上させそうです。

3. Chrome上で仕事をClaudeにお任せできる拡張機能

Chrome上にAIチャットボットサービス「Claude」専用カラムが出現、Chromeブラウザを操作＆作業させられる拡張機能が追加になっています。

上掲動画の例では「リフォーム費用が今いくらなのか、予算にどれだけ余裕があるのかわからなくなっちゃった。業者のメールをチェックして、予算管理のスプレッドシートを更新して」とお願いしています。

画面を見て考え始めるClaude。Gmailで業者のメールを探して請求額をチェック、スプレッドシートを更新します。それから家族に「予算オーバーっぽいけどどうする？」という内容のメールを書くところまでやっています。

仕事や日常生活だとブラウザアプリをよく使いますから、精度高く仕事をこなしてくれるならけっこう使えるのでは？と。最上位プラン「Max」ユーザー向けとなっていて、まだ実験色が強い機能ですが、試してみたさはかなり。

4. Claudeアプリ上でパワポやエクセルを作ってもらえるように

Claudeがコードを実行できるようになり、以前より複雑な作業を高精度に実現できるようになりました。

ファイルも作れるようになり、データ分析からエクセルやパワポを生成可能になっています。

ChatGPTにも同種の機能がありますが、けっこう使っています。どっちが優秀か比べてみたいかも？ 気になるところが多い発表でした。

Source: Anthropic (1, 2, 3, 4), Google DeepMind