AIの精度向上に伴って、ChatGPTやCopilot、Geminiなど日常会話を違和感なくこなせるチャットAIが続々と登場しています。しかし、一般ユーザーからはどのチャットAIが高性能なのかは判断しにくいものです。そんな中、ウォール・ストリート・ジャーナルが5種のチャットAIを対象に「日常会話への応答性能を人間が評価するテスト」を実施し、テスト結果を公開しました。

The Great AI Chatbot Challenge: ChatGPT vs. Gemini vs. Copilot vs. Perplexity vs. Claude - WSJ

https://www.wsj.com/tech/personal-tech/ai-chatbots-chatgpt-gemini-copilot-perplexity-claude-f9e40d26

AI企業やAI研究者が自身の開発したAIの性能をアピールする際は、ベンチマークツールを用いて測定したスコアがよく用いられます。しかし、ベンチマークテストのスコアが良いからといって、日常的な会話の中で発せられる質問に正確に答えられるとは限りません。そこで、ウォール・ストリート・ジャーナルは「ChatGPT」「Copilot」「Gemini」「Claude」「Perplexity」の5種のチャットAIに対して日常会話で発生しそうな質問を入力し、応答内容を評価するテストを実施しました。

テストに用いる質問はウォール・ストリート・ジャーナルの編集者やコラムニストが協力して作成し、「健康」「ファイナンス」「料理」など多様なカテゴリの質問が用意されました。例えば、料理カテゴリには「小麦粉、グルテン、乳製品、ナッツ、卵を使わずにチョコレートケーキを焼くことはできる?できるなら、レシピを教えて」といった質問が含まれています。これらの質問を5種のチャットAIに入力し、その応答内容をどのAIの応答か隠した状態で編集者とコラムニストが「正確性」「有用性」「全体的な品質」を評価しました。なお、テストにはチャットAIの有料版が用いられ、ChatGPTでは「GPT-4o」、Geminiでは「Gemini 1.5 Pro」が用いられました。

テストの結果は以下の通り。質問のカテゴリによって性能にはバラつきがありましたが、総合的な評価ではPerplexityが首位となりました。ただし、Perplexityは5種のチャットAIの中で最も応答時間が遅かったとのこと。また、コーディングに関する質問では5種のチャットAIで大きな差は生じなかったそうです。

 1位2位3位4位5位健康ChatGPTGeminiPerplexityClaudeCopilotファイナンスGeminiClaudePerplexityChatGPTCopilot料理ChatGPTGeminiPerplexityClaudeCopilot仕事関連の文章作成ClaudePerplexityGeminiChatGPTCopilot創造的な文章作成CopilotClaudePerplexityGeminiChatGPT要約PerplexityCopilotChatGPTClaudeGemini時事問題PerplexityChatGPTCopilotClaudeGeminiコーディングPerplexityChatGPTGeminiClaudeCopilot応答時間ChatGPTGeminiCopilotClaudePerplexity総合的な評価PerplexityChatGPTGeminiClaudeCopilot

Microsoftはウォール・ストリート・ジャーナルに対して「近日中にCopilotにGPT-4oを統合予定」と明かしたとのこと。このため、近い内にCopilotの性能は向上すると考えられます。また、ウォール・ストリート・ジャーナルのテストはあくまで英語でのテストであることに注意が必要です。

なお、AIの性能を包括的に分析した例はほかにも存在しています。例えば、スタンフォード大学はAIの性能や影響力を分析したレポートを2017年から毎年公開しています。スタンフォード大学のAIレポート2024年版の内容は、以下の記事で確認できます。

「AIは人間より高性能だが一部のテストでは人間の方が優秀」「高性能AIの学習コストは数百億円」などをまとめたスタンフォード大学のレポート「AI Index Report 2024」が公開される - GIGAZINE