Huaweiを含む中国の研究チームが、HuaweiのAscend 910Cチップを使い、DeepSeek-V4-Proモデルのポストトレーニング(事後学習)を完了したと明らかにしました。中国半導体産業がAI推論の支援からより複雑なモデル訓練へ進もうとする中で、今回のプロジェクト成功は大きな前進と位置付けられています。

Huawei chips refine DeepSeek model in major leap for China’s AI self-reliance | South China Morning Post

https://www.scmp.com/tech/article/3356117/huawei-chips-refine-deepseek-model-major-leap-chinas-ai-self-reliance



Huawei-led team claims it post-trained DeepSeek's 1.6-trillion-parameter model - 1,000 Ascend 910C chips used in training | Tom's Hardware

https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-led-team-claims-it-post-trained-deepseeks-1-6-trillion-parameter-models-on-ascend-910c-chips

研究チームはHuaweiや深圳ループエリア研究院、ハルビン工業大学深圳キャンパス、深圳ビッグデータ研究院で構成される共同チームで、アメリカの制裁が強まる中で中国のAI産業チェーンの自立性を高める取り組みとして注目されています。中国のチップメーカーは完成済みモデルを使って回答を出すAI推論で成果を上げてきましたが、モデルの頭脳を構築したり改良したりするトレーニングでは課題を抱えてきました。

今回の取り組みではDeepSeekとして過去最大となるパラメーター数1兆6000億のDeepSeek-V4-Proが使われました。深圳市政府によれば、DeepSeek-V4-Proは少なくとも1000個のHuawei Ascend 910Cで構成される計算クラスター上で稼働したと報告したとのこと。

HuaweiのAscend 910CはAIのトレーニングと推論を高速化するためのAIアクセラレータ。SMICの第2世代7nmプロセスを採用し、Huawei独自のDa Vinciアーキテクチャで構築されたAscend 910Cは、NVIDIAのH100に匹敵するパフォーマンスを実現しているとHuaweiによってアピールされています。

Huaweiによると新型AIチップ「Ascend 910C」はNVIDIA H100に匹敵するらしい - GIGAZINE



そして、今回の取り組みで実施されたのは「フルパラメータ」の事後学習です。事前学習が大量のデータを吸収してモデルに話し方を学ばせる工程だとすれば、事後学習は人間の指示や安全規則、特定の作業に従う方法を学ばせる工程といえます。

今回のプロジェクトでモデルが自己反省し、調整できるようになったとのこと。さらに、事後学習によってモデル全体の構造を更新し、簡略化せずに改良できるようになったそうです。

深圳市政府は従来の国内計算能力を、質問を入力して答えを出す一方通行の道路に例えているとのこと。その上で、今回の取り組みはその道路に複雑な立体交差やループを加えたような形となり、計算と通信の需要が数倍に増えたと説明しているそうです。