GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ

2024年12月19日 9時0分

OpenAIやGoogle、Anthropic、Metaなど、さまざまな企業が大規模言語モデルを開発しており、各社の開発するモデルの性能差はベンチマークを使って比較されます。エンジニアのサイモン・ウィリソン氏が、「自転車に乗ったペリカン」を描かせるという独自のベンチマークを考案したと報告しています。

Pelicans on a bicycle

https://simonwillison.net/2024/Oct/25/pelicans-on-a-bicycle/

pelican-bicycle/README.md at main · simonw/pelican-bicycle · GitHub

https://github.com/simonw/pelican-bicycle/blob/main/README.md

ウィリソン氏は自転車に乗ったペリカンをベンチマークとして描かせる理由として、「ペリカンが好きだから」「自転車に乗ったペリカンのSVGファイルはおそらくまだ出回っておらず、トレーニングデータに取り込まれている可能性がほぼないと確信できるから」と述べています。

ベンチマークはシンプルで、「Generate an SVG of a pelican riding a bicycle(自転車に乗っているペリカンをSVG形式で生成してください)」というプロンプトを入力するだけ。

以下は実際にウィリソン氏がAnthropicのClaude 3.5 Sonnetに入力して得られた、自転車に乗っているペリカンの画像。左は2024年6月20日、右は2024年10月22日に出力したものです。

GoogleのGemini 1.5 Flash 001(左)とGemini 1.5 Flash 002(右)

GPT-4o mini(左)とGPT-4o(右)

OpenAIのo1-mini(左)とo1-preview(右)

Cerebras Llama 3.1の70Bモデル(左)と8Bモデル(右)

Amazon NovaのMicroモデル(左)・Liteモデル(中)・Proモデル(右)

また、ウィリソン氏はGoogleの動画生成AIであるVeo 2で「自転車に乗ったペリカン」の動画を生成した結果をX(旧Twitter)にポストしています。これまでの大規模言語モデルはSVG形式で出力するように命令されていたために幾何学的なデザインとなっていましたが、Veo 2の場合はほとんど実写にしか見えないレベルの動画が生成されています。

Veo 2 did pretty well at "A pelican riding a bicycle along a coastal path overlooking a harbor" - two of these videos have the pelican actually cycling! https://t.co/h9BaOWKbsa pic.twitter.com/Bx1ThtiHzn— Simon Willison (@simonw) December 16, 2024

みんなの感想は？

GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ

外部サイト

ランキング