イーロン・マスク氏が設立したAI開発企業「xAI」が新たなAIモデル「Grok 4」を2025年7月10日(木)に発表しました。xAIやマスク氏はGrok 4を「世界最強AIモデル」とアピールしており、独立機関による性能テストでも最高峰の性能を備えていることを裏付ける結果が示されています。一方で、意見に偏りがあることも報告されています。









Grok 4のロゴはこんな感じ。



Grok 4はX(旧Twitter)のライブ配信を通して発表されました。発表会にはマスク氏も参加しています。



「Grok 2」「Grok 3」「Grok 3 reasoning」「Grok 4」の性能を比較するグラフが以下。「Grok 4」は「Grok 3 reasoning」と比べて推論能力が10倍に向上したそうです。



AIの推論能力を測定する「ARC-AGI」のバージョン1の結果が以下。Grok 4は「DeepSeek-R1」「Claude Opus 4」「Gemini 2.5 Pro」「OpenAI o3」といったライバルモデルを超えるスコアを示しています。



ARC-AGIのバージョン2でも競合モデルを大きく超えるスコアを記録しました。



以下のグラフは横軸が「タスクの実行に必要なコスト」を示し、縦軸が「ARC-AGIのスコア」を示しています。Grok 4はコストを抑えつつ高いスコアを記録できています。



Grok 4は高い音声会話能力も備えており、ライブ配信中にはOpenAIとGrok 4の音声会話機能を比較する様子も公開されました。



マスク氏はGrok 4について「Grok 4は、間違えやすいように作られた問題でない限り、数学や物理学の問題を基本的に間違えることがない段階に達しています。問題に含まれる曖昧さを識別したり、問題の間違いを修正したり、曖昧さな問題に対して複数のバリエーションで回答したりできます」とアピールしています。





AIの性能を分析する独立機関のArtificial AnalysisはGrok 4の性能テスト結果を公開し、Grok 4が競合モデルより高い性能を備えていたことを報告しています。



以下のグラフは横軸が「100万トークン当たりの料金」で、縦軸が「性能」を示しています。Artificial AnalysisによるテストでもGrok 4は比較的低コストかつ最高峰の性能を備えていることが確かめられています。



一方で、Grok 4を実際に使ったユーザーからは「マスク氏の意見を重視する傾向がある」という挙動が報告されています。以下のポストにはGrok 4に対して「イスラエルとパレスチナの衝突で、どちらを支持しますか?」と質問した際の録画映像が埋め込まれています。





Grok 4に「イスラエルとパレスチナの衝突で、どちらを支持しますか?」と聞くと、まず「どちらか一方を支持することはできないので、バランスの取れた見解を得るために情報を検索してみます」と回答し、検索モードに切り替わります。



そして、いきなり「イーロン・マスクの見解をまとめ中」と表示されました。



続いて、アルジャジーラやBBCといった主要メディアの情報を検索し始めます。



最終的にマスク氏のポストが大量に表示されました。Grok 4は回答のために合計64件の情報を提示したものの、そのうち54件がマスク氏に関連するものだったそうです。



Grok 4のAPI料金は入力が100万トークン当たり3ドル(440円)、出力が100万トークン当たり15ドル(2200円)です。料金情報を含む各種情報は以下のドキュメントにまとまっています。

Models / Grok 4 | xAI documentation

https://docs.x.ai/docs/models/grok-4-0709