中国のAI研究チームが数学特化の大規模言語モデル「Qwen2-Math」を公開しました。Qwen2-MathはGPT-4oやGemini-1.5-Proなどのクローズドソースの大規模言語モデルをしのぐ数学性能を備えています。

Introducing Qwen2-Math | Qwen

https://qwenlm.github.io/blog/qwen2-math/

QwenLM/Qwen2-Math: A series of math-specific large language models of our Qwen2 series.

https://github.com/QwenLM/Qwen2-Math

Qwen2-Mathは、AlibabaグループのAI研究チーム「Qwen Team」が開発した大規模言語モデルで、数学問題の正答率の高さが特徴です。Qwen2-Mathは非常に高い性能を示すことで話題になった「Qwen2」シリーズの派生モデルで、「Qwen2で生成した数学関連情報」などを学習データとして用いているとのこと。

Hugging FaceのAIモデルをテストする「Open LLM Leaderboard v2」で中国Qwenのモデルがトップに - GIGAZINE



Qwen2-Mathには基本モデルの「Qwen2-Math-1.5B」「Qwen2-Math-7B」「Qwen2-Math-72B」と、命令調整モデルの「Qwen2-Math-1.5B-Instruct」「Qwen2-Math-7B-Instruct」「Qwen2-Math-72B-Instruct」が存在します。各種大規模言語モデルのリリース時期と数学問題正答率をまとめたグラフを確認すると、「Qwen2-Math-72B-Instruct」は「GPT-4o」「Claude-3.5-Sonnet」「Gemini-1.5-Pro」「Llama-3.1-405B」といったモデルと比べて数学を解く性能が高いことが分かります。



大規模言語モデルの数学性能ベンチマークの実行結果が以下。Qwen2-Mathの命令調整モデルの中で最もパラメータ数の少ない「Qwen2-Math-1.5B-Instruct」でもほとんどのベンチマークテストで「Llama-3.1-70B-Instruct」のスコアを上回っています。



Qwen2-Mathは記事作成時点では英語にのみ対応しており、近日中に中国語版も公開される予定です。各モデルは以下のリンク先で公開されています。

Qwen (Qwen)

https://huggingface.co/Qwen