GoogleのチャットボットAI「Bard」がついにベンチマークスコアでGPT-4を上回って第2位に浮上
カリフォルニア大学バークレー校・カリフォルニア大学サンディエゴ校・カーネギーメロン大学が協力して設立したオープンな研究組織・Large Model Systems Org(LMSYS Org)は、大規模な機械学習モデルのデータセットやオープンモデル、評価ツールを共同開発しています。LMSYS Orgが自身の開発した大規模言語モデルベンチマークプラットフォームで、GoogleのチャットボットAI「Bard with Gemini Pro」のベンチマークスコアがOpenAIのGPT-4の一部モデルを超えて2位にランクインしたと報告しました。
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
LMSYS Orgは大規模言語モデルのベンチマークプラットフォーム「Chatbot Arena」を開発しています。このベンチマークは人間ユーザーをオープンなチャットに招待し、匿名のAIモデル2種類と会話を行わせた上で投票を行い、チェスで用いられるイロレーティングで順位付けをするというものです。
対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン - GIGAZINE
LMSYS Orgによると、Chatbot Arenaのイロレーティング番付は2024年1月26日時点で1位がOpenAIのGPT-4 Turbo、2位がGoogleのBard(Gemini Pro)、3位がOpenAIのGPT-4 バージョン0314、4位がOpenAIのGPT-4 バージョン0613とのこと。
????Breaking News from Arena
Google's Bard has just made a stunning leap, surpassing GPT-4 to the SECOND SPOT on the leaderboard! Big congrats to @Google for the remarkable achievement!
The race is heating up like never before! Super excited to see what's next for Bard + Gemini… pic.twitter.com/QPtsqZdJhC— lmsys.org (@lmsysorg) January 26, 2024
GPT-4 バージョン0314はMicrosoft Azure上で動作するGPT-4モデル「Azure OpenAI Service」で最初にリリースされたバージョンで、GPT-4 バージョン0613は2番目にリリースされたバージョンです。そして、今回これらのGPT-4モデルにイロレーティングで上回ったBardは、Googleが開発したマルチモーダルAI・Gemini Proをベースとした「Bard with Gemini Pro」です。
各モデルの1000戦でのレーティングサンプリング表と対戦勝率をまとめた表が以下の通り。
Sorry the above screenshots are not up-to-date. Here are the correct plots for model ratings and win-rate.
Check out leaderboard link for full details: https://t.co/MsbfthaZlk
Also, we welcome the community to compare Bard and other models at https://t.co/4LVJjx4pZi! pic.twitter.com/G8Z99iqpvO— lmsys.org (@lmsysorg) January 26, 2024
LMSYS Orgは「GoogleのBardが見事な躍進を遂げ、GPT-4を超えてランク2位となりました。Googleの素晴らしい功績に対して、大きな祝福を!」とコメント。さらに将来的にリリースが予定されているGemini UltraベースのBardの結果についても期待を寄せています。