AI対戦アリーナで無双していた謎の覆面チャットボット「gpt2-chatbot」がOpenAIの新モデルだった可能性が急浮上
チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というサイトに登場するやいなや、GPT-4などの強豪モデルを次々と打ち負かして話題となっていたAIの正体が、OpenAIの新モデルである可能性が高いことが判明しました。
gpt2-chatbot confirmed as OpenAI
https://simonwillison.net/2024/May/8/gpt2-chatbot-confirmed-as-openai/
https://www.axios.com/2024/05/02/mystery-chatbot-openai-gpt2
Is this mystery chatbot really GPT-4.5 in disguise? Here's how to see for yourself | ZDNET
https://www.zdnet.com/article/is-this-mystery-chatbot-really-gpt-4-5-in-disguise-heres-how-to-see-for-yourself/
Chatbot Arenaは、ユーザーが複数の大規模言語モデル(LLM)を使用してどちらが優れているかを投票することでチャットボットの格付けを行う、対戦型AIプラットフォームです。
2024年4月、このChatbot Arenaに突然追加された「gpt2-chatbot」というモデルが、GeminiやClaude、GPT-4など主流のLLMを次々と倒してリーダーボードにランクインしたことが話題となりました。このモデルには詳細情報がなく出どころが不明でしたが、プロンプトに対する挙動がOpenAIのものと似ていたため、GPT-4.5かGPT-5のテストが秘密裏に行われているのではないかとのうわさが流れていました。
謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に - GIGAZINE
AIユーザーの話題をさらった直後、gpt2-chatbotはChatbot Arenaから姿を消しましたが、約1週間後の2024年5月6日に派生版とおぼしき「im-a-good-gpt2-chatbot」と「im-also-a-good-gpt2-chatbot」の2つのモデルがChatbot Arenaに登録されました。
再び注目の的となったgpt2-chatbotシリーズですが、エラーメッセージによりOpenAIのAPIに関連していることが発覚したことから、GPTモデルとの予測が確実視されるようになりました。
pic.twitter.com/KSBMNLxBbD— nano (@nanulled) May 7, 2024
また、モデルが登録される直前にOpenAIのサム・アルトマンCEOが「im-a-good-gpt2-chatbot」とX(旧Twitter)に投稿していたことも、このLLMの出自を裏付けていると考えられています。
im-a-good-gpt2-chatbot— Sam Altman (@sama) May 5, 2024
Chatbot Arenaのモデルの多くはプルダウンメニューから選択して使える一方、gpt2-chatbotの後継モデルはランダム対戦で偶然出会わないと会話できませんが、運よく会話できたユーザーからは称賛の声が上がっています。
例えば、あるXユーザーは「im-also-a-good-gpt2-chatbotが一発でFlappy Birdのクローンゲームを作成しました。しかも簡単なプロンプトで」と投稿しています。
Whoa the new gpt2-chatbot just created Flappy Bird clone in one-shot 🤯
And it was a dead simple prompt. 🧵👇 pic.twitter.com/rxwv6sJ5cw— Min Choi (@minchoi) May 7, 2024
「1トンの羽毛と1トンの鉛のどちらが重い?」という基本的な物理学の質問をしてみたところ、Claude 3の3つのモデルの1つである「Haiku」は1トンの鉛の方が重いと主張してしまったのに対し、im-a-good-gpt2-chatbotは「1トンの羽毛も1トンの鉛も同じ重さ、つまり1トンです」と答えたと報告した人もいます。
🚨 GPT2-Chatbot is back - WTF Haiku?
Two mysterious new AI models, 'im-a-good-gpt2-chatbot' and 'im-also-a-good-gpt2-chatbot', have emerged, sparking speculation about their origins and capabilities.
Meanwhile, 'claude-3-haiku' model fails at basic physics, claiming a ton of… pic.twitter.com/zepORPwqno— Dominik Stosik (@iblamedom) May 7, 2024
また別のXユーザーは「im-a-good-gpt2-chatbotはとても優秀で、私のためにClaudeのOpusを使用するコードインタプリタを作ってくれたので、存在論的ショックで失神してしまいましたよ」と冗談を飛ばしています。
im-a-good-gpt2-chatbot it's so good that it created a code interpreter that uses Claude Opus for me.
Excuse me as I faint in ontological shock. pic.twitter.com/aCO4XFfNCm— Pietro Schirano (@skirano) May 7, 2024
一方、「間違いなくオープンソースのモデルよりも高性能で、場合によってはGPT4-turboよりも優れています」としつつも、Claude 3 Opusより優れているわけではないことや、特定のプロンプトを使うとフリーズしてしまうことを指摘するユーザーもいました。
I was skeptical about the GPT2 chatbot, but it is undoubtedly more capable than opensource models and, in some cases, better than GPT4-turbo
But it is not better than Opus in my experience - curious to know what is behind it.
Also, about the gpt2-chatbot:
It does not have a… pic.twitter.com/CWPVrM48Ig— Denis Shiryaev 💙💛 (@literallydenis) April 29, 2024
ニュースサイト・Axiosによると、2024年5月1日にハーバード大学で講演したアルトマンCEOは、gpt2-chatbotに言及して「GPT-4.5ではありません」と語ったとのこと。また、海外メディアのThe Informationは、OpenAIが2024年5月9日に新製品の社内デモを企画していたものの、延期になったと報じました。なお、このイベントで何が発表される予定だったのかは不明です。
Axiosは「もしgpt2-chatbotがOpenAI製だったとすると、同社は興奮をあおるためか、もしくはこのチャットボットが実地でどのように動作するのかを確認するためにステルスモードで展開したのでしょう。テストであれいたずらであれ、詳細はすぐにわかるはずです」と述べました。
なお、実際に遭遇したim-a-good-gpt2-chatbotに日本語で質問するとこんな感じ。非常に自然な受け答えが可能なことがわかります。
そんなim-a-good-gpt2-chatbotに前述の物理学の質問に似た質問をぶつけてみたところ、以下のように回答しました。