カリフォルニア大学バークレー校・カリフォルニア大学サンディエゴ校・カーネギーメロン大学が協力して設立したオープンな研究組織・Large Model Systems Org(LMSYS Org)は、大規模な機械学習モデルのデータセットやオープンモデル、評価ツールを共同開発しています。LMSYS Orgが自身の開発した大規模言語モデルベンチマークプラットフォームで、GoogleのチャットボットAI「Bard with Gemini Pro」のベンチマークスコアがOpenAIのGPT-4の一部モデルを超えて2位にランクインしたと報告しました。

LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard



LMSYS Orgは大規模言語モデルのベンチマークプラットフォーム「Chatbot Arena」を開発しています。このベンチマークは人間ユーザーをオープンなチャットに招待し、匿名のAIモデル2種類と会話を行わせた上で投票を行い、チェスで用いられるイロレーティングで順位付けをするというものです。

対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン - GIGAZINE



LMSYS Orgによると、Chatbot Arenaのイロレーティング番付は2024年1月26日時点で1位がOpenAIのGPT-4 Turbo、2位がGoogleのBard(Gemini Pro)、3位がOpenAIのGPT-4 バージョン0314、4位がOpenAIのGPT-4 バージョン0613とのこと。



GPT-4 バージョン0314はMicrosoft Azure上で動作するGPT-4モデル「Azure OpenAI Service」で最初にリリースされたバージョンで、GPT-4 バージョン0613は2番目にリリースされたバージョンです。そして、今回これらのGPT-4モデルにイロレーティングで上回ったBardは、Googleが開発したマルチモーダルAI・Gemini Proをベースとした「Bard with Gemini Pro」です。

各モデルの1000戦でのレーティングサンプリング表と対戦勝率をまとめた表が以下の通り。



LMSYS Orgは「GoogleのBardが見事な躍進を遂げ、GPT-4を超えてランク2位となりました。Googleの素晴らしい功績に対して、大きな祝福を!」とコメント。さらに将来的にリリースが予定されているGemini UltraベースのBardの結果についても期待を寄せています。