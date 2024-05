チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というサイトに登場するやいなや、GPT-4などの強豪モデルを次々と打ち負かして話題となっていたAIの正体が、OpenAIの新モデルである可能性が高いことが判明しました。gpt2-chatbot confirmed as OpenAIhttps://simonwillison.net/2024/May/8/gpt2-chatbot-confirmed-as-openai/

Mystery chatbot is likely a new OpenAI producthttps://www.axios.com/2024/05/02/mystery-chatbot-openai-gpt2Is this mystery chatbot really GPT-4.5 in disguise? Here's how to see for yourself | ZDNEThttps://www.zdnet.com/article/is-this-mystery-chatbot-really-gpt-4-5-in-disguise-heres-how-to-see-for-yourself/Chatbot Arenaは、ユーザーが複数の大規模言語モデル(LLM)を使用してどちらが優れているかを投票することでチャットボットの格付けを行う、対戦型AIプラットフォームです。2024年4月、このChatbot Arenaに突然追加された「gpt2-chatbot」というモデルが、GeminiやClaude、GPT-4など主流のLLMを次々と倒してリーダーボードにランクインしたことが話題となりました。このモデルには詳細情報がなく出どころが不明でしたが、プロンプトに対する挙動がOpenAIのものと似ていたため、GPT-4.5かGPT-5のテストが秘密裏に行われているのではないかとのうわさが流れていました。謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に - GIGAZINEAIユーザーの話題をさらった直後、gpt2-chatbotはChatbot Arenaから姿を消しましたが、約1週間後の2024年5月6日に派生版とおぼしき「im-a-good-gpt2-chatbot」と「im-also-a-good-gpt2-chatbot」の2つのモデルがChatbot Arenaに登録されました。再び注目の的となったgpt2-chatbotシリーズですが、エラーメッセージによりOpenAIのAPIに関連していることが発覚したことから、GPTモデルとの予測が確実視されるようになりました。また、モデルが登録される直前にOpenAIのサム・アルトマンCEOが「im-a-good-gpt2-chatbot」とX(旧Twitter)に投稿していたことも、このLLMの出自を裏付けていると考えられています。Chatbot Arenaのモデルの多くはプルダウンメニューから選択して使える一方、gpt2-chatbotの後継モデルはランダム対戦で偶然出会わないと会話できませんが、運よく会話できたユーザーからは称賛の声が上がっています。例えば、あるXユーザーは「im-also-a-good-gpt2-chatbotが一発でFlappy Birdのクローンゲームを作成しました。しかも簡単なプロンプトで」と投稿しています。「1トンの羽毛と1トンの鉛のどちらが重い?」という基本的な物理学の質問をしてみたところ、Claude 3の3つのモデルの1つである「Haiku」は1トンの鉛の方が重いと主張してしまったのに対し、im-a-good-gpt2-chatbotは「1トンの羽毛も1トンの鉛も同じ重さ、つまり1トンです」と答えたと報告した人もいます。また別のXユーザーは「im-a-good-gpt2-chatbotはとても優秀で、私のためにClaudeのOpusを使用するコードインタプリタを作ってくれたので、存在論的ショックで失神してしまいましたよ」と冗談を飛ばしています。一方、「間違いなくオープンソースのモデルよりも高性能で、場合によってはGPT4-turboよりも優れています」としつつも、Claude 3 Opusより優れているわけではないことや、特定のプロンプトを使うとフリーズしてしまうことを指摘するユーザーもいました。ニュースサイト・Axiosによると、2024年5月1日にハーバード大学で講演したアルトマンCEOは、gpt2-chatbotに言及して「GPT-4.5ではありません」と語ったとのこと。また、海外メディアのThe Informationは、OpenAIが2024年5月9日に新製品の社内デモを企画していたものの、延期になったと報じました。なお、このイベントで何が発表される予定だったのかは不明です。Axiosは「もしgpt2-chatbotがOpenAI製だったとすると、同社は興奮をあおるためか、もしくはこのチャットボットが実地でどのように動作するのかを確認するためにステルスモードで展開したのでしょう。テストであれいたずらであれ、詳細はすぐにわかるはずです」と述べました。なお、実際に遭遇したim-a-good-gpt2-chatbotに日本語で質問するとこんな感じ。非常に自然な受け答えが可能なことがわかります。そんなim-a-good-gpt2-chatbotに前述の物理学の質問に似た質問をぶつけてみたところ、以下のように回答しました。