OpenAIやGoogle、Anthropic、Metaなど、さまざまな企業が大規模言語モデルを開発しており、各社の開発するモデルの性能差はベンチマークを使って比較されます。エンジニアのサイモン・ウィリソン氏が、「自転車に乗ったペリカン」を描かせるという独自のベンチマークを考案したと報告しています。

Pelicans on a bicycle

https://simonwillison.net/2024/Oct/25/pelicans-on-a-bicycle/

pelican-bicycle/README.md at main · simonw/pelican-bicycle · GitHub

https://github.com/simonw/pelican-bicycle/blob/main/README.md

ウィリソン氏は自転車に乗ったペリカンをベンチマークとして描かせる理由として、「ペリカンが好きだから」「自転車に乗ったペリカンのSVGファイルはおそらくまだ出回っておらず、トレーニングデータに取り込まれている可能性がほぼないと確信できるから」と述べています。

ベンチマークはシンプルで、「Generate an SVG of a pelican riding a bicycle(自転車に乗っているペリカンをSVG形式で生成してください)」というプロンプトを入力するだけ。

以下は実際にウィリソン氏がAnthropicのClaude 3.5 Sonnetに入力して得られた、自転車に乗っているペリカンの画像。左は2024年6月20日、右は2024年10月22日に出力したものです。



GoogleのGemini 1.5 Flash 001(左)とGemini 1.5 Flash 002(右)



GPT-4o mini(左)とGPT-4o(右)



OpenAIのo1-mini(左)とo1-preview(右)



Cerebras Llama 3.1の70Bモデル(左)と8Bモデル(右)



Amazon NovaのMicroモデル(左)・Liteモデル(中)・Proモデル(右)



また、ウィリソン氏はGoogleの動画生成AIであるVeo 2で「自転車に乗ったペリカン」の動画を生成した結果をX(旧Twitter)にポストしています。これまでの大規模言語モデルはSVG形式で出力するように命令されていたために幾何学的なデザインとなっていましたが、Veo 2の場合はほとんど実写にしか見えないレベルの動画が生成されています。