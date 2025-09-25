Image: Diego Thomazini / Shutterstock.com

今年の頭に公開されるや否やバケモノAIと世界を震撼させた中国AI、DeepSeek-R1。高性能な上に利用料が安く、オープンソースであるというAI界の天才児みたいな存在になっています。

推論モデルのDeepSeek-R1についても、DeepSeekの方針にのっとり論文公開されていましたが、ついに今まで明らかになっていなかったトレーニング費用も公開！

その額、29万4000ドル、日本円にして4300万円ほど。AIトレーニングにしては、破格とも言える安さです。ちなみに、使用したNVIDIA H800 GPUチップはわずか512個。

DeepSeek-R1のトレーニング費用が安いのは、トライ＆エラーを繰り返すことで正解に辿りつくというDeepSeek独自の学習方法を用いたから。

回答を点数で評価

一般的に推論性能が問われるAIモデルは、人間が注釈をつけたデータと、どのように問題を解決するかというデモ（教育）によってトレーニングされており、これには時間もコストもかかります。一方、DeepSeekは、正解がでるまでトライ＆エラーを繰り返すという方法で行いました。

論文を紹介したNatureの解説記事では、カーネギーメロン大学のDaphne Ippolito助教授と博士課程の学生Yiming Zhang氏が、ゲームをする子どもを例に解説。子どもがゲームの世界をアバターを通じて冒険するときの学習方法はまさにトライ＆エラーです。

例えば、金貨をとるとポイントがもらえるとか、敵にぶつかるとスコアがゼロに戻るなど、特定アクションとそれによって起きることを実際にやってみることで学びます。これと同じように、DeepSeek-R1も正解を出すと高得点、間違いだと低い点数を与えられることで学習していったと解説しています。

今までの研究で、大規模言語モデルにステップごとに解説をつけ正解まで進んでいくと、出てくる答えの正確性が上がるというものもありました。が、DeepSeekのAIチームは、あくまで答えを点数評価。人間が推論を手取り足取りサポートするのではなく、DeepSeekはより高い点数を欲することで正解までたどりついたのです。

この方法は、数学やプログラミングなど、正解・不正解が明確な場合で非常にうまくいったとのこと。一方で、ニュアンスや人によって意見が割れてしまうような質問は苦手です。また、答えはでるものの、そこまでたどり着いたプロセス＝思考を（人間にわかるように）説明するのは難しいようで、中国語と英語を切り替えながらAIがちょっとしどろもどろする姿もあったみたい。

DeepSeek-R1は、性格が素直すぎてセキュリティが弱い、中国政府に肩入れしている疑惑など、グローバルで多様な人が活用するには課題も多く残されています。しかし、独自のトレーニング方法でコストを引き下げたDeepSeekの開発手腕は見事の一言です。

DeepSeekのAIチームによる論文はNatureにて公開されています。