OpenAIが日本時間の2024年5月14日(火)にAIモデル「GPT-4o」を発表しました。GPT-4oは単一のモデルでテキスト、音声、視覚入力を非常に高速に処理可能で、リアルタイムに会話しながら「計算問題を解く」「画像の生成」「周囲の映像から状況を判断」といったタスクを実行可能です。

Hello GPT-4o | OpenAI

https://openai.com/index/hello-gpt-4o/

Introducing GPT-4o and more tools to ChatGPT free users | OpenAI

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

GPT-4oはテキスト、音声、視覚入力を高速処理できるマルチモーダルなAIモデルです。GPT-4oの応答時間は平均320ミリ秒で、音声入力にはわずか232ミリ秒という人間と同等の速度で応答可能です。なお、GPT-4oの「o」は「すべての」「全体の」などを意味する「omni」の略記とのこと。

GPT-4やGPT-3.5を搭載したChatGPTの音声会話モードは「音声をテキストに変換するモデル」「入力テキストを元に返答テキストを生成するモデル」「返答テキストを音声に変換するモデル」といった複数のモデルを用いて実現されていました。これに対して、GPT-4oは単一のモデルで「音声や画像、映像などの入力を受け取ってから返答する」という処理を実行可能です。

GPT-4oの発表に際して、多数のリアルタイム応答デモが実施されました。例えば、以下のデモではスマートフォンで周囲を撮影しつつ「私がここで何をするつもりか推測してみてください」という質問に対して、「照明や三脚のセットアップから、何らかの撮影やライブ配信の準備をしているようです。この発表はOpenAIに関連しているのかもしれません」とスラスラ答えています。さらに、「これはあなたについての発表ですよ」と伝えると「私!?」と驚いたような声で返答しました。

Say hello to GPT-4o - YouTube

一般的なチャットAIが苦手とする数学に関するデモもあります。以下のデモでは、数学の問題を見せつつ「息子に答えは教えず問題の解き方を教えてあげて」という指示に対して、GPT-4oは問題が三角関数に関するものだと認識したうえで「斜辺はどの辺か分かる?」といったように問題の解き方を一歩ずつ教えることができています。

Math problems with GPT-4o - YouTube

以下の動画では、「カメラ入力を有効化したGPT-4o」と「カメラ入力を無効化したGPT-4o」を用意し、互いを会話させながら周囲の状況を把握させています。さらに、動画の4分27秒頃からは「今起こったことについて歌を歌って」という指示に従ってGPT-4oが歌う様子を確認できます。

Two GPT-4os interacting and singing - YouTube

さらに、GPT-4oは「画像を指示に従って加工する」という処理も可能です。以下の例では、GPT-4oが入力された顔写真をイラストに変換しています。



GPT-4oのテキスト処理性能を複数のベンチマークを用いて測定した結果が以下。GPT-4oのスコアはほとんどのテストでGPT-4 TurboやGemini Ultraなどのモデルを上回っています。



GPT-4oとWhisperで音声を処理した際の誤認識率を比較すると、GPT-4oの方が誤認識率が低く、性能が高いことが分かります。



視覚処理性能でもGPT-4 TurboやGemini Ultraなどのモデルを上回るスコアを記録しています。



GPT-4oはすでにChatGPT Plusの加入者向けに公開されており、テキスト会話や音声会話などの機能を利用可能です。



また、無料ユーザーに対してもテキストおよび視覚処理機能が2024年5月14日から順次展開されており、数週間以内にGPT-4oを使った音声モードも提供される予定です。

なお、2024年4月末頃からAIの性能比較サイト「Chatbot Arena」に「gpt2-chatbot」や「im-also-a-good-gpt2-chatbot」と名乗る謎のモデルが登場して「OpenAIの新型モデルでは?」とウワサされていたのですが、OpenAI研究員のWilliam Fedus氏がim-also-a-good-gpt2-chatbotの正体がGPT-4oであったことを明かしています。