中国の大手IT企業であるアリババが、720億のパラメーター数を誇るTransformerベースの大規模言語モデル「Qwen-72B」と、日本語の音声入力にも対応したQwenのマルチモーダルバージョンの「Qwen-Audio」をオープンソース化したことを発表しました。

Qwen/README_JA.md at main · QwenLM/Qwen · GitHub

https://github.com/QwenLM/Qwen/blob/main/README_JA.md

Qwen/Qwen-72B-Chat · Hugging Face

https://huggingface.co/Qwen/Qwen-72B-Chat

GitHub - QwenLM/Qwen-Audio: The official repo of Qwen-Audio (通义千问-Audio) chat & pretrained large audio language model proposed by Alibaba Cloud.

https://github.com/QwenLM/Qwen-Audio

アリババグループの最先端研究機関・アリババDAMOアカデミーで神経言語プログラミング(NPL)を研究しているBinyuan Hui氏は、SNSへの投稿で「私たちの誠実なオープンソース作品、Qwen-72BとQwen-1.8Bを紹介できることを誇りに思います!」と発表しました。



Qwen-72Bは3兆以上のトークンで学習した大規模言語モデルで、MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBHなど自然言語理解や数的処理、コーディングなどに関する一連のベンチマークでは全てのタスクで同サイズのモデルであるMetaのLLaMA2-70Bを上回ったとのこと。また、10タスク中7タスクでOpenAIのGPT-3.5を超える成績をたたき出しました。

さっそく試したユーザーからは、日本語の処理も軽快に行えるとの報告が出ています。



ただし、要求するメモリ容量が大きいためローカルで動かすのは少し厳しいとの意見もあります。



Qwenには、Qwen-72Bの他にパラメータサイズが異なる「Qwen-1.8B」「Qwen-7B」「Qwen-14B」もあります。また、中国語でのユーザー登録が必要ですが、Qwen-72Bをブラウザで動かすことができるデモも用意されています。

通义千问-72B-对话-Demo · 创空间

https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary



Hui氏はまた、音声入力に対応したモデル「Qwen-Audio」もオープンソース化されていると発表しました。



Qwen-AudioはQwen-7BとOpenAIの音声エンコーダーであるWhisper-large-v2を組み合わせたもので、既存の最先端(State of the Art:SoTA)モデルを全てのタスクで上回っているとのこと。



Qwen-AudioのデモはHugging Faceでユーザー登録をしなくても触ることができます。



まずは日本語のテキストを入力して質問してみました。



すると、以下のような回答が出力されました。



音声にも対応しているとのことなので、音声ファイルをアップロードしてみました。使用したのは、以前の記事で作成した動画の冒頭部分です。



「Submit」をクリックして送信します。



音声ファイルの内容は「地球上に金はどれくらい存在していますか?」というもの。なぜか歌詞と認識されてしまって会話はできませんでしたが、精度は高い模様です。



イーロン・マスク氏の問題発言である「Go fuck yourself」も聞き取れました。



Qwen-Audio-Chatは、中国語、英語、日本語、韓国語、ドイツ語、スペイン語、イタリア語での音声理解をサポートしているとのことです。