GPT-3.5-TurboとMetaの大規模言語モデル「LLaMA」で学習したデータを用いた、ノートPCでも実行可能なチャットボット「GPT4ALL」をNomic AIが発表しました。さまざまなトピックの学習に用いられた質問と返答のペアのトレーニングデータセットもすべて公開されています。

GitHub - nomic-ai/gpt4all: gpt4all: a chatbot trained on a massive collection of clean assistant data including code, stories and dialogue

https://github.com/nomic-ai/gpt4all



GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

(PDFファイル)https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf



GPT4All: Running an Open-source ChatGPT Clone on Your Laptop | by Maximilian Strauss | Mar, 2023 | Better Programming

https://betterprogramming.pub/gpt4all-running-an-open-source-chatgpt-clone-on-your-laptop-71ebe8600c71

Nomic AIはまずGPT-3.5-Turboを用いて、質問と返答のペアをおよそ100万個収集。



先行するスタンフォード大学のAlpacaの解説に基づいて、Nomic AIはデータ準備とキュレーションに注意を払うことにし、収集したペアをAtlasというツールを用いて整理。多様性の低い質問を削除し、トレーニングデータが幅広いトピックをカバーできるようにしたとのこと。整理後に残ったペアは43万7605件。



そしてNomic AIは、LLaMA 7Bのインスタンスから微調整された複数のモデルをトレーニング。最初の公開に関連するモデルはLoRAでトレーニングされました。このモデルをオープンソースの「Alpaca-LoRA」と比較したところ、一貫してperplexityが低い(低い方がよい)結果が出ています。



GPT4ALLは、いわばChatGPTのオープンソースの軽量クローン。ブログ・Better Programmingの筆者であるマクシミリアン・シュトラウス氏は、「GPT4ALLの魅力は量子化4ビット版モデルを公開したことにある」と述べています。これは、モデルの一部の精度を落として実行することで、よりコンパクトなモデルにしたもので、専用ハードウェア抜きで消費者レベルの端末でも実行できることを意味しています。

以下は、メモリ8GBのiMac M1で動作したという報告。



手元では、VAIO SX12で動作することを確認しました。



なお、モデルは研究目的に限りライセンス供与され無料で利用可能ですが、商用利用は禁止されています。また、補助データを収集したGPT-3.5-Turboの使用条件として、OpenAIと商業的に競合するモデルの開発を禁じるがあることに注意が必要です。