OpenAIは3月14日(現地時間)、最新の大規模言語モデル「GPT-4」を公開した。同日より、同社の有料サービス「ChatGPT Plus」で利用できる。APIにアクセスしたい開発者向けのウェイティングリストの受付も開始した。

OpenAIと提携する米Microsoftも同日、自社検索エンジン「Bing」で、検索用にカスタマイズしたGPT-4で動作していると発表。GPT-4は、2022年11月末のGPT-3.5に続くものとなり、当時はGPT-3.5ベースの対話型AI「ChatGPT」を同時公開し、話題となった。

GPT-4は中核の技術を強化し、より一般的な知識を備える。最大の特徴がマルチモーダルとしての画像の対応。GPT-3.5がテキストのみに対応していたのに対し、GPT-4では画像のインプットに対しても、キャプション、分類、分析といった情報を返すことができるという。

例えば小麦粉(と思われる粉)、卵、ミルク、バターが映っている写真を入れて「この材料で何を作ることができる?」とテキスト入力すると、「これらの材料でできる選択肢はたくさんある。可能性として、パンケーキやワッフル、クレープ……」といったアウトプットを返している。

入力できる文字数は2万5000ワード以上となった。創造性とコラボレーションを強化するとして、作詞、脚本、作文のスタイルなど、創造的でテクニカルな文章の作成を支援するという。

例として、「シンデレラ(童話)のプロットをアルファベット順にAからZまでで始まる単語を使い、反復することなく説明せよ」という入力に対し、「A beautiful Cinderella, dwelling eagerlly……」とABCD順の単語を使って回答している。

GPT-4はChatGPT(GPT-3.5ベース)よりも精度が改善しており、統一司法試験、国際生物学オリンピックなどのスコアが改善しているとのこと。日本語の精度については、Microsoft Azure Translateでの翻訳によるMMLUベンチマークで、GPT-3.5を上回ったと報告している。

OpenAIはリリースに合わせ、これまでと同様にGPT-4にも限界があるとし、完全な信頼性がないことなどに留意している。また、6カ月にわたる安全性のトレーニングを重ねたことに触れている。