OpenAIのエンジニアがAIの推論コストを半分以下に削減する方法を見つけたとの報道

AIモデルを大規模に提供する企業にとって課題となっているのが、ユーザーの入力に応じてAIモデルが出力を生成するプロセスにかかる推論コストです。新たに、OpenAIのエンジニアたちが「推論コストを半分以下に削減する方法を見つけた」と語ったと、海外メディアのThe Informationが報じました。
OpenAI Discovers New Way to Cut Inference Costs in Half - The Information
OpenAI engineers say they've more than halved inference costs | AI Weekly
https://aiweekly.co/alerts/openai-engineers-say-theyve-more-than-halved-inference-costs
推論コストは実際にAIモデルが使用されるたびに発生する費用であり、チャットAIやコーディングAIを大規模提供するAI開発企業の運用コストの大部分を占めています。そのため、推論コストを軽減する方法を見つけることは、より安価かつ高い利益率でAIモデルを提供する上で重要な課題です。
テクノロジー業界に詳しいエドワード・ジトロン氏は、OpenAIは2025年の前半だけで推論コストに50億ドル(約8140億円)以上を費やしていると推定しています。この金額は、予想されるOpenAIの収益を大幅に上回ると指摘されています。
OpenAIの推論コストはどれくらい高いのか? - GIGAZINE

The Informationは問題に詳しい関係者の話として、2026年6月初めにOpenAIのエンジニアらが同僚に「新たな最適化手法によって推論コストを半分以下に抑える方法を見つけた」と語ったと報じました。
具体的な最適化手法がどのようなものだったかは不明ですが、OpenAIの関係者は「最適化手法をChatGPTのゲストユーザーに適用したところ、処理の一部に必要なNVIDIA GPUがわずか200個ほどにまで削減できた」と語ったそうです。
最先端AIモデルのトレーニングは一度限りである一方、推論コストはチャットの応答やAPI呼び出しなどAIエージェントのあらゆるステップで発生します。そのため、ソフトウェアの変更だけで無料利用枠の使用GPU数を大幅に削減できれば、ハードウェア契約の最適化だけでは実現できないレベルの運用コスト削減が可能になります。
また、推論コスト削減が既存サーバーの利用効率向上によって効果が得られているとされていることから、AI関連メディアのAI Weeklyは「よりスマートなバッチ処理」「キャッシュの再利用性の向上」「量子化」「より単純なクエリを安価なモデルにルーティングする」といった方法が考えられると推測。しかし、ゲストユーザーではない無料または有料アカウントを持つChatGPTユーザーでも、同じ手法が利用可能かどうかはわからないと指摘しています。
AI Weeklyは、「もしこれが一般化できるのであれば、OpenAIは価格を引き下げるか、無料アクセスを拡大するか、あるいはチップを追加購入せずにより多くのエージェントワークロードを吸収するという成果を得られるでしょう。特に注目すべきは最後の選択肢です。なぜなら、業界全体がAIデータセンターの建設競争を繰り広げる中で、これが利益率を守るための最も安価な方法だからです」と述べました。
