Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明

近年は機械学習分野の研究がめまぐるしい勢いで進んでおり、数十億を超えるパラメーターを持つ大規模言語モデルが相次いで発表されています。イギリス・エディンバラ大学の大規模言語モデル研究者であるヤオ・フー氏らの研究チームが、独自のベンチマークに基づいて複数の大規模言語モデルのパフォーマンスを比較した結果をGitHubで公開しています。
GitHub - FranxYao/chain-of-thought-hub: Benchmarking large language models' complex reasoning ability with chain-of-thought prompting

研究チームによると、「パラメーターが10B未満の言語モデルでも、OpenAIのGPT-3.5と同等のパフォーマンスを達成できる」と主張する人は多いとのこと。しかし、OpenAIはGPT-4のリリースに際して「大規模言語モデルの性能差は十分な複雑さを持ったタスクに直面した時に現れる」と指摘しています。そこで、一定のベンチマークに基づいてさまざまな大規模言語モデルの性能差を確かめるため、以下の「複雑な推論タスクのリスト」を作成しました。
・MMLU……高校および大学レベルの知識問題。
・GSM8K……小学生レベルの算数。このデータセットにおける性能向上は、大規模言語モデルと対話する際の日常的な数学の能力に直結します。
・MATH……非常に難しい数学および自然科学の問題。
・BBH……27問の難しい推論問題。
・HumanEval……コーディング能力を評価する古典的なデータセット。
・C-Eval……52分野にわたる中国語知識検定の問題集。
・TheoremQA……数学、物理学、電気電子工学、コンピューター科学、金融など、多分野にわたる350の定理に基づいた質疑応答データセット。

そして、研究チームがベンチマークを測定した結果の表が以下です。なお、各大規模言語モデルの「タイプ」の項目は、「BASE」が事前トレーニングされたもの、「SIFT」が教師あり命令微調整後のもの、「RLHF」が人間のフィードバックによる教科学習後のものを示しています。
モデル名パラメーター数タイプGSM8KMATHMMLUBBHHumanEvalC-EvalTheoremQAgpt-4?RLHF92.042.586.4-67.068.743.4claude-v1.3?RLHF81.8-74.867.3-54.224.9PaLM-2?Base80.734.378.378.1--31.8gpt-3.5-turbo?RLHF74.9-67.370.148.154.430.2claude-instant?RLHF70.8--66.9-45.923.6text-davinci-003?RLHF--64.670.7--22.8code-davinci-002?Base66.619.164.573.747.0--text-davinci-002?SIFT55.4-60.067.2--16.6Minerva540BSIFT58.833.6-----Flan-PaLM540BSIFT--70.966.3---Flan-U-PaLM540BSIFT--69.864.9---PaLM540BBase56.98.862.962.026.2--LLaMA65BBase50.910.663.4-23.738.8-PaLM64BBase52.44.449.042.3---LLaMA33BBase35.67.157.8-21.7--InstructCodeT5+16BSIFT----35.0-11.6StarCoder15BBase8.415.133.9-33.6-12.2Vicuna13BSIFT------12.9LLaMA13BBase17.83.946.9-15.8--Flan-T511BSIFT16.1-48.641.4---Alpaca7BSIFT ------13.5LLaMA7BBase11.02.935.1-10.5--Flan-T53BSIFT13.5-45.535.2---
表を見ると、同じ大規模言語モデルであってもパラメーター数によって性能に大きな差があることや、各ベンチマークのスコアもモデルのパラメータ数におおよそ比例することがわかります。研究チームは今回の結果から、以下のような点を指摘しています。
・「GPT-4」はGSM8KとMMLUにおいて、他のすべてのモデルより明らかに優れている。
・Metaが開発した「LLaMa」はパラメーター数が65Bのモデルにおいて、GPT-3を使用した自然言語処理エンジンである「text/code-davinci-002」と非常に近い性能を持っており、正しく調整すれば65B LLaMaに基づいてChatGPTを再現できる可能性がある。
・AI研究スタートアップのAnthropicが開発した「Claude」は、GPTファミリーに匹敵する唯一の大規模言語モデルファミリーである。
・GSM8Kについて「gpt-3.5-turbo」が「text-davinci-003」よりも優れているのは、OpenAIが2023年1月30日のリリースノートで言及した「数学的能力の向上」を裏付けている。
・MMLUについては「gpt-3.5-turbo」が「text-davinci-003」よりわずかに優れているものの、その差は大きいものではない。

研究チームは、大規模言語モデルが対応する分野でトレーニングされたかどうかや、プロンプトが最適化されたかどうかなどの要因により、一般に大規模言語モデルのパフォーマンスを厳密に比較することは非常に困難だと指摘。そのため、結果はおおよその参考値として見るのがいいと述べました。
