OpenAIが新AIモデル「GPT-5.4」をリリース、性能は“大幅に”向上。ChatGPTにもくるよ

2026年3月6日 6時30分

Geminiの性能と主義を貫くAnthropicに押されていましたが…。

2026年3月6日、OpenAIが新しいAIモデル「GPT-5.4」を発表しました。GPT-5.4は知的な実務作業（具体的には、資料作成や調査、表計算、法務文書の整理）を強く意識した改善が施された最先端モデルであり、特にPCやブラウザを直接操作するのを得意とします。コーディング性能も向上しています。

幅広い利用シーンに対応できる、汎用型のフラッグシップAIだと言えます。

GPT-5.4 can write Playwright code, read screenshots, and issue keyboard/mouse actions to operate computers.

You can steer its behavior and set custom confirmation policies for different risk tolerances.

On OSWorld-Verified, it achieves a state-of-the-art 75.0% success rate. pic.twitter.com/QXBjIOZCmJ
- OpenAI Developers (@OpenAIDevs) March 5, 2026

GPT-5.4を使ってGmailからメールを送信しているところ。かなり高速に動作しているのが見てとれます。作業精度も上がっているそうです。

ChatGPTの課金プランユーザー向けとなっていて、対象プランのユーザーにはGPT-5.4 Thinking/Proとして表示され、利用できます。また、先日リリースされ昨日にはWindowsでも利用できるようになった「Codex app」や、「Codex CLI」などでも使えます。

（デモがCodex appで行われていたので、ChatGPTよりもCodexを想定したモデルなのかもしれません）

ベンチマークは最高鋒。GPTシリーズは輝きを取り戻したか

GPT-5.4のベンチマークからは「実際に仕事を進める力」が高そうなことがうかがえます。スコアは概ね現状最高鋒の数値と言ってよく、オールラウンドに優秀なAIだと思われます。

大きな伸びを見せ、競合とも同水準

知的実務を測るベンチマーク「GDPVal」のスコアは83.0%、粘り強くWebを調べる力を見るBrowseCompは82.7%、外部ツールを使う複数手順の作業を測るToolathlonは54.6%、PC操作を見るOSWorldは75.0%、実務的なコーディングを見るSWE-Bench Proは57.7%です。

旧モデル GPT-5.2 Thinkingと比べると、ベンチマークスコアが大きく伸びているのがわかるでしょう。上記の各スコアは旧モデルから+17.1%、25.7%、19.5%、58.6%、3.8%となっており、PC操作、Web探索、ツール利用に関するベンチマークの伸びは劇的です。

競合の最新モデルとも十分に肩を並べる水準です。昨今、OpenAIは他社に押され気味でしたが、勢いを取り戻したかのよう。Googleの最新モデル「Gemini 3.1 Pro」やAnthropicの最新モデル「Claude Opus 4.6」との比較では勝ち負けがありますが、大きな差ではありません。

「ライティングに強い」という結果も

AIブラインドテストサイト「Arena.ai」（旧LMArena）が速報的にGPT-5.4の性能が分野別ランキングでどこに位置するかを公開しており、それによるとクリエイティブライティング（創作的な執筆）で3位、文学・言語、エンタメ、ビジネス、金融などの専門分野では6位につけているそうです。自然言語の生成も普通に強いっぽいですね。

GPT-5.4-high is now in the Text Arena, tied with Gemini-3-Pro.

Highlights:
- Top 3 in Creative Writing, and top 10 in Instruction Following, Hard Prompts.
- Top 6 for Occupational categories: Writing, Literature & Language, Entertainment, Sports & Media, Business, Management &… https://t.co/6BJAZU3A1l pic.twitter.com/WI6OU6m0Nr
- Arena.ai (@arena) March 5, 2026

格段に長く思考でき、高解像度の画像も読める

推論性能以外でも強化点は多いです。

注目なのは、コンテキストウィンドウ（AIが読み込めるデータ量の上限）が1Mトークンに拡張された点でしょう。より長い思考や作業、長大で複雑な資料に対応できるようになっています。コーディングアシスタントとして起用すれば、多数のコードを一気に、ミスなく書き切ってくれるはずです。

また、高解像度の画像（最大10.24Mピクセル相当）を細かく分析・認識できるようになったのも強力です。これは画像化された文書の読み取りやスクリーンショットによる作業状況などの把握がより高精度で可能になったということ。言語化が難しい状況で生きてくるでしょう。

Codex CLIで既に利用可能だったので少し試したのですが、感触は非常によかったです。精度もスピードも上がってる感じで、すごい快適です。試行数が少ないのでまだ断言はできないのですが、旧モデルよりも軽快に動作しますね。体感、1.5倍くらいのスピードで生成してると思います。生成されるテキストも読みやすいです。

最後になりましたが、GPT-5.4はAPIでの利用も可能です。単価はInput 2.5ドル/1M Tokens・Output 15ドル/1M Tokensと前モデルより高価ですが、推論効率が上がっているため、場合によってはより安く済むこともあるとのことです。

OpenAI (1, 2)

ChatGPTに新モデル｢GPT-5.3-Instant｣。“シャドウお断り”とハルシネーションを低減、日本語能力にもテコ入れ

みんなの感想は？

ベンチマークは最高鋒。GPTシリーズは輝きを取り戻したか

大きな伸びを見せ、競合とも同水準

「ライティングに強い」という結果も

格段に長く思考でき、高解像度の画像も読める

外部サイト

ランキング