GPT-4.1超えの中国製AIモデル「Kimi K2」が無料公開される、複数のテストでGPT-4.1やClaude 4 Opusを打ち負かしエージェントタスクもこなす

中国に拠点を置くAI開発企業のMoonshot AIが大規模言語モデル「Kimi K2」を2025年7月12日(土)にリリースしました。Kimi K2はDeepSeek-V3やQwen3-235Bといったオープンモデルを超える性能を備えているほか、多くのテストでGPT-4.1やClaude Sonnet 4などの商用モデルのスコアを上回っています。
Kimi K2: Open Agentic Intelligence
Kimi K2は総パラメーター数1兆、アクティブパラメーター数320億のAIモデルで、複数の専門家モデルを組み合わせて1つの大規模モデルを構築するMixture of Experts(MoE)アーキテクチャを採用しています。Kimi K2はOpenAI oシリーズのような推論モデルではありませんが、エージェントタスク向けに最適化することで単純な応答だけでなくツールの使用なども可能になっているとのこと。また、数学タスクやコーディングタスクでも高い性能を発揮します。
Kimi K2はベースモデルの「Kimi-K2-Base」と事後学習済みモデルの「Kimi-K2-Instruct」の2種類に分かれてリリースされています。以下の図は「Kimi-K2-Instruct」「DeepSeek V3」「Qwen3-235B」「GPT-4.1」「Claude 4 Opus」「Claude 4 Sonnet」「Gemini 2.5 Flash」のベンチマークスコアを並べたものです。Kimi-K2-InstructはすべてのテストでオープンモデルのDeepSeel V3とQwen3-235Bを超えるスコアを記録し、一部のテストでGPT-4.1やClaude Sonnet 4などの商用モデルに勝利しています。

Kimi K2のAIエージェントとしての性能を示す使用例が以下。旅行の計画を立てるように指示すると「日付を取得」「ウェブ上の情報を検索」「メールの受信箱を確認」といったように各種ツールを使いこなしながら計画を立ててくれます。

最終的に、視覚的に分かりやすい計画書が出力されました。

また、Kimi K2を実際に使ったユーザーからは「『1つのHTMLファイルでシンプルなブロック崩しゲームを作成(create a simple breakout game as a single html page)』というプロンプトを入力するだけで、指示通りのゲームを一発で作成できた」という報告が寄せられています。
@Kimi_Moonshot k2 just oneshotted this game with the prompt "create a simple breakout game as a single html page", cost less than a penny on @OpenRouterAI pic.twitter.com/DZRB1VZpYk— waterdoggie (@waterdoggie) July 12, 2025
Kimi K2はAPI経由で利用可能なほか、Hugging FaceでKimi-K2-BaseとKimi-K2-Instructのモデルデータが配布されています。
Kimi-K2 - a moonshotai Collection
https://huggingface.co/collections/moonshotai/kimi-k2-6871243b990f2af5ba60617d

また、Kimi K2に関連するコードは以下のリンク先で公開されています。
GitHub - MoonshotAI/Kimi-K2: Kimi K2 is the large language model series developed by Moonshot AI team
https://github.com/MoonshotAI/Kimi-K2
