GoogleのチャットボットAI「Bard」がついにベンチマークスコアでGPT-4を上回って第2位に浮上

2024年1月29日 15時0分

カリフォルニア大学バークレー校・カリフォルニア大学サンディエゴ校・カーネギーメロン大学が協力して設立したオープンな研究組織・Large Model Systems Org(LMSYS Org)は、大規模な機械学習モデルのデータセットやオープンモデル、評価ツールを共同開発しています。LMSYS Orgが自身の開発した大規模言語モデルベンチマークプラットフォームで、GoogleのチャットボットAI「Bard with Gemini Pro」のベンチマークスコアがOpenAIのGPT-4の一部モデルを超えて2位にランクインしたと報告しました。

LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

LMSYS Orgは大規模言語モデルのベンチマークプラットフォーム「Chatbot Arena」を開発しています。このベンチマークは人間ユーザーをオープンなチャットに招待し、匿名のAIモデル2種類と会話を行わせた上で投票を行い、チェスで用いられるイロレーティングで順位付けをするというものです。

対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン - GIGAZINE

LMSYS Orgによると、Chatbot Arenaのイロレーティング番付は2024年1月26日時点で1位がOpenAIのGPT-4 Turbo、2位がGoogleのBard(Gemini Pro)、3位がOpenAIのGPT-4 バージョン0314、4位がOpenAIのGPT-4 バージョン0613とのこと。

????Breaking News from Arena

Google's Bard has just made a stunning leap, surpassing GPT-4 to the SECOND SPOT on the leaderboard! Big congrats to @Google for the remarkable achievement!

The race is heating up like never before! Super excited to see what's next for Bard + Gemini… pic.twitter.com/QPtsqZdJhC— lmsys.org (@lmsysorg) January 26, 2024

GPT-4 バージョン0314はMicrosoft Azure上で動作するGPT-4モデル「Azure OpenAI Service」で最初にリリースされたバージョンで、GPT-4 バージョン0613は2番目にリリースされたバージョンです。そして、今回これらのGPT-4モデルにイロレーティングで上回ったBardは、Googleが開発したマルチモーダルAI・Gemini Proをベースとした「Bard with Gemini Pro」です。

各モデルの1000戦でのレーティングサンプリング表と対戦勝率をまとめた表が以下の通り。

Sorry the above screenshots are not up-to-date. Here are the correct plots for model ratings and win-rate.

Check out leaderboard link for full details: https://t.co/MsbfthaZlk

Also, we welcome the community to compare Bard and other models at https://t.co/4LVJjx4pZi! pic.twitter.com/G8Z99iqpvO— lmsys.org (@lmsysorg) January 26, 2024