OpenAIのAIモデル「GPT-4o」がチェスパズルで従来モデルの2倍以上の好成績をたたき出しランキングトップに
OpenAIは日本時間の2024年5月14日、新たなAIモデルである「GPT-4o」を発表しました。テキストや音声、視覚情報を高速で処理してリアルタイムな応答が可能で、一般的なチャットAIが苦手とする計算問題にも優れた性能を発揮するGPT-4oが、チェスパズルでも「GPT-4」の倍以上の好成績をたたき出したことが明らかになりました。
GitHub - kagisearch/llm-chess-puzzles: Benchmark LLM reasoning capability by solving chess puzzles.
2024年4月、チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というウェブサイトに、「gpt2-chatbot」というモデルが突如として追加されました。gpt2-chatbotは従来のGPT-4モデルやClaude 3 Opusが解決できないレベルの問題に対応し、英語だけではなく日本語の処理能力も高く、アスキーアートの生成も可能となっており、OpenAIの新モデルである可能性が浮上していました。
AI対戦アリーナで無双していた謎の覆面チャットボット「gpt2-chatbot」がOpenAIの新モデルだった可能性が急浮上 - GIGAZINE
そして5月14日に、OpenAIは新しいAIモデル「GPT-4o」を発表し、gpt2-chatbotの正体がGPT-4oであったことが正式に明かされました。
OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能 - GIGAZINE
GPT-4oはテキスト、音声、視覚入力を高速処理できるマルチモーダルなAIモデルで、音声入力にはわずか232ミリ秒という人間と同等の速度で応答可能。従来のGPT-4やGPT-3.5を搭載したChatGPTの音声会話モードは、「音声をテキストに変換するモデル」「入力テキストを元に返答テキストを生成するモデル」「返答テキストを音声に変換するモデル」といった複数のモデルを用いていましたが、GPT-4oは単一のモデルでこれらの処理を実行できるとのこと。
また、GPT-4oは一般的なチャットAIが苦手とする数学においても優れた能力を発揮し、人間に数学問題の解き方を解説できるほか、感情豊かに会話したり歌を歌ったりと多様な動作を可能としています。
そんな中、さまざまな大規模言語モデルにチェスのパズルを解かせ、その結果をベンチマークとして公開している「llm-chess-puzzles」というプロジェクトが、GPT-4oにチェスパズルを解かせた結果を公開しました。
llm-chess-puzzlesではチェスにおけるコマ配置を示すFEN表記を用いて、大規模言語モデルに1000個のパズルを解くように指示します。ベンチマーク結果には「大規模言語モデルが解くことができた問題数」のほか、モデルがボードの状態とゲームのルールを把握していないことを意味する「不正なコマの動かし方をした問題数」も含まれます。
llm-chess-puzzlesが公開している結果一覧表が以下。GPT-4oの正答率は50.1%で、「GPT-4-turbo-preview」「GPT-4」「Claude 3 Opus」「Claude 3 Haiku」といった競合モデルを大幅に上回る正答率を記録したことがわかります。
llm-chess-puzzlesは、「チェスのパズルはほとんどの人間にとっても難しい問題であり、ましてやわずか数文字でボード全体を記述する問題文のみが与えられる大規模言語モデルにとっては、非常に難しい問題です」「大規模言語モデルがFEN表記に基づいて盤面の正しい状態を内部化するだけでなく、ゲームのルールとチェスの戦略を使用して最善の手を見つけられる点は注目に値します」と述べました。