ChatGPTを超えるという大規模言語モデル「OpenChat」をローカルで動作させて実力を確かめてみた
![](https://image.news.livedoor.com/newsimage/stf/7/b/7b42b_88_fdcecc89fadf4d62eaa7de3515af3ad5.png)
OpenChatはオープンソースの大規模言語モデルです。OpenChatのうち2023年11月にリリースされたOpenChat-3.5-7Bモデルはパラメーター数が70億しかないにもかかわらず2023年3月時点のChatGPTを超えるベンチマーク結果を出すほど性能が高いモデルとのことなので、実際に使って試してみました。
imoneoi/openchat: OpenChat: Advancing Open-source Language Models with Imperfect Data
OpenChatにはすぐに性能を試せるようにデモが用意されています。デモサイトにアクセスすると下図のUIが出現するので、モデルが「Default (OpenChat Aura)」となっているのを確認して下部のメッセージウィンドウにメッセージを入力すればOK。
![](https://image.news.livedoor.com/newsimage/stf/6/d/6d5c1_88_f9b42609ac215f63bc72307e938544ca.png)
まずは「あなたは誰ですか?」と質問してみました。AIは「自分はGPT-4だ」と返答しますが、中身はOpenChatで間違いないとのこと。
![](https://image.news.livedoor.com/newsimage/stf/a/d/ad910_88_73579d7cb4f9903ce1db5e83f3fb8af1.png)
オンラインのデモでチャットAIとしての性能を確認できるものの、今回は本当にOpenChat-3.5-7Bモデルが動いていることを確かめるため、ローカルで動作させてみることにしました。幸い、OpenChatはOllamaを使用して簡単に動かすことができます。Ollamaの使い方については下記の記事で解説しています。
さまざまなチャットAIを簡単にローカル環境で動かせるアプリ「Ollama」の公式Dockerイメージが登場 - GIGAZINE
![](https://image.news.livedoor.com/newsimage/stf/1/5/15173_88_966987d44c66b75d334e1461ab7556b5.png)
上記の記事の手順に従ってOllamaコンテナを起動後、下記のコマンドでOpenChatを立ち上げます。
docker exec -it ollama ollama run openchat
まずは同様に「あなたは誰ですか?」と質問してみました。やや日本語が怪しげです。
![](https://image.news.livedoor.com/newsimage/stf/5/f/5f3ed_88_738dae8bfb060eef86924529a1f57ff3.png)
日本語が苦手なのかと思い、「What are you good at?(何が得意ですか?)」と英語で質問してみましたが、前の質問に引きずられたのか日本語で回答されました。
![](https://image.news.livedoor.com/newsimage/stf/3/0/30808_88_c6e011544746dad4a391482355eb8516.png)
OpenChatについて聞いてみました。質問の形式が良かったのか、今度は自分自身のことをOpenChatだと認識しています。
![](https://image.news.livedoor.com/newsimage/stf/6/b/6ba18_88_70fc9f09164a29d3c00da87c43407eda.png)
次に記事の要約タスクを頼んでみます。まずは下記の記事を要約してもらいました。
重力レンズを使って「星から星へ電力を伝達」する理論が研究で示される - GIGAZINE
![](https://image.news.livedoor.com/newsimage/stf/2/6/26d0b_88_ca7d907659feceb99a389ff7d40d89ab.jpg)
プロンプトはこんな感じ。シンプルに「下記の内容を要約してください」と入力後、下に記事内容をそのまま貼り付けています。
![](https://image.news.livedoor.com/newsimage/stf/0/3/03fd1_88_bab6a17e00da478df7541efaf9ff12d6.png)
重力レンズ効果の強力さを示すための例として登場した太陽300億個以上の質量をもつブラックホールの話が今回の論文の話にすり替わっているなどの問題点はあるものの、重力レンズ効果を使用してエネルギーを送信し、星間探査やテラフォーミングに活用できるという骨子を捉える事には成功しました。
![](https://image.news.livedoor.com/newsimage/stf/f/f/ff8ac_88_0e0fa1b744358259c9af653850efdae9.png)
下記の記事でも試してみます。
一部のCPUベンチマークの計測方法に問題があり正しく性能を評価できていないという指摘 - GIGAZINE
![](https://image.news.livedoor.com/newsimage/stf/0/2/024e9_88_818b718c7b37fb8fe395da53e9528858.png)
全体的にウソはないものの、「CPU-Zのベンチマークは現代のCPUのボトルネックであるメモリアクセスと分岐予測の計測が甘いため役立たない」という重要な結論部分が抜けてしまいました。
![](https://image.news.livedoor.com/newsimage/stf/f/d/fd414_88_83bd4113add8516654fadf3441316a38.png)
そのほか、いくつか質問を試してみました。「済慎感」という新語を生み出したり、「短かったらしても」や「短くさげ方法を」など日本語が怪しかったりしますが、おおむねプロンプトに従った回答を生成してくれています。
![](https://image.news.livedoor.com/newsimage/stf/a/f/af77f_88_38a99a1497137cb124e98ad477d94afb.png)
「寝やし」「清らかくなり」「不適格跡」「柩痛」など新語を連発しています。少なくとも日本語でのブログ記事の生成には向いていなさそうです。
![](https://image.news.livedoor.com/newsimage/stf/c/a/cab81_88_0515239cd0dddb31e79ad68b7c8d8a04.png)
「GPUとCPUの違いは何ですか?」という質問に対しては両者ともに長所の説明がほぼ同じになってしまっているものの、そこそこ「読める」回答が返ってきました。
![](https://image.news.livedoor.com/newsimage/stf/9/f/9ff4e_88_99fc6f5793c2b94ada0cc6a2b6a68efe.png)
推論中のGPUの様子はこんな感じ。今回はGPUにTesla T4を使用しています。GPUメモリの使用量は約5GBで、GPU使用率は90%〜100%となっていました。
![](https://image.news.livedoor.com/newsimage/stf/b/d/bda98_88_b9408e68a5233ed6941427283f5b2183.png)
同様に通常のメモリの使用量も約5GB程度で、CPU使用率はほぼ100%でした。この状態で、回答の生成は一瞬とはいかずともかなりスムーズで、今回の記事で登場した回答は10秒〜20秒程度で生成されています。
![](https://image.news.livedoor.com/newsimage/stf/b/7/b7638_88_c890920988d5cba2cc65e1aad3435ad7.png)
なお、他の大規模言語モデルと同じく数学は特に苦手なようで、「四則演算で10を作って」とお願いしても全然正しくない数式ばかりが生成されてしまいました。
![](https://image.news.livedoor.com/newsimage/stf/3/3/3308f_88_0915e5b0db070df1f1204292b0253552.png)