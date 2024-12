中国のAI企業であるDeepSeekが、2024年12月26日に大規模言語モデル「DeepSeek-V3」を発表しました。6710億個ものパラメーターを持つDeepSeek-V3はOpenAIのマルチモーダルAIモデル「GPT-4oに匹敵し、場合によってはGPT-4oを上回る性能を発揮するとのことです。deepseek-ai/DeepSeek-V3-Base · Hugging Face

???? Introducing DeepSeek-V3!



Biggest leap forward yet:

⚡ 60 tokens/second (3x faster than V2!)

???? Enhanced capabilities

???? API compatibility intact

???? Fully open-source models & papers



???? 1/n pic.twitter.com/p1dV9gJ2Sd— DeepSeek (@deepseek_ai) December 26, 2024

???? API Pricing Update



???? Until Feb 8: same as V2!

???? From Feb 8 onwards:

Input: $0.27/million tokens ($0.07/million tokens with cache hits)

Output: $1.10/million tokens



???? Still the best value in the market!



???? 3/n pic.twitter.com/OjZaB81Yrh— DeepSeek (@deepseek_ai) December 26, 2024

https://huggingface.co/deepseek-ai/DeepSeek-V3-BaseDeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch | VentureBeathttps://venturebeat.com/ai/deepseek-v3-ultra-large-open-source-ai-outperforms-llama-and-qwen-on-launch/DeepSeek-V3 is Now The Best Open Source AI Modelhttps://analyticsindiamag.com/ai-news-updates/deepseek-v3-is-the-best-open-source-ai-model/DeepSeek is preparing Deep Roles and released a new V3 modelhttps://www.testingcatalog.com/deepseek-preparing-deep-roles-and-dropping-high-performing-v3-model/今回発表されたDeepSeek-V3は、6710億のパラメーターを持ち14兆8000のトークンでトレーニングされた大規模言語モデルです。海外メディアのTestingCatalogによると、DeepSeek-V3はこれまでLlama 3.1 405Bが持っていたパラメーター数4050億の記録を上回り、過去最大のパラメーターを持つ大規模言語モデルとのこと。DeepSeek-V3のトレーニングにはNVIDIAのGPU「H800」を約278万8000GPU時間用いたとのことで「約557万ドル(約8億7000万円)を要しましたが、大規模言語モデルの事前トレーニングには一般的に数億ドル(数千億円)を要するため、DeepSeek-V3のトレーニング費用ははるかに安価です」と語っています。マルチヘッドアテンションと複数の専門的ニューラルネットワークを統合する手法であるMixture of Experts(MoE)アーキテクチャを組み合わせて設計されたDeepSeek-V3では、6710億という膨大なパラメーターの中から各タスクの処理に最適な370億パラメーターのみを選択して活性化させることで、計算効率と処理性能の両立を実現しています。また、DeepSeek-V3はMoEアーキテクチャ上にモデル全体のパフォーマンスを損なうことなく、ネットワーク間の負荷を動的に監視・調整する負荷分散戦略を採用。さらに複数の将来トークンを同時に予測することを可能にする「マルチトークン予測(MTP)」と呼ばれる技術を実装しています。これにより、前世代のDeepSeek-V2と比べて3倍高速となる毎秒60トークンの生成が可能です。DeepSeekはDeepSeek-V3に関するベンチマークスコアを公開しており、「Qwen2.5 72B」「Llama 3.1 405B」「Claude 3.5 Sonnet-1022」「GPT-4o 0513」に匹敵することが報告されています。特に「HumanEval-Mul」などのプログラミングや「CNMO 2024」などの数学、「C-Eval」などの中国語処理において他のAIモデルに対して際立った結果を示していることが明らかになりました。さらにDeepSeekは「当社はDeepSeek-R1の検証パターンとリフレクションパターンをDeepSeek-V3に巧みに組み込み、推論能力を大幅に向上させることに成功しました」と述べています。また、2025年2月8日までの期間限定でDeepSeek-V3のAPI料金はDeepSeek-V2から据え置きとなっています。入力時の価格は100万トークンあたり0.27ドル(約42円)、出力時は100万トークンあたり1.10ドル(約173円)です。なお、DeepSeekはDeepSeek-V3をオープンソース化しており、ソースコードなどはGitHubからダウンロード可能です。deepseek-ai/DeepSeek-V3https://github.com/deepseek-ai/DeepSeek-V3