米OpenAIは3月14日(現地時間)、同社の対話型AI「ChatGPT」やMicrosoftの「新しいBing」のチャット機能を支える大規模言語モデル(LLM)の新版「GPT-4」を発表した。同日より、ChatGPTの有料サービス「ChatGPT Plus」で提供を開始。また、これまでMicrosoftは明かしていなかったが、「新しいBing」のプレビューサービスは開始時から初期のGPT-4を採用しており、同社はGPT-4の進化に合わせたアップデートを進めている。



GPT(Generative Pre-trained Transformer)は、AIが大量のデータセットの学習を繰り返し、ディープラーニング(深層学習)によって人間が書くような自然な文章を生成する。OpenAIの言語モデルだ。ChatGPTが昨年末に登場した時点で搭載していた「GPT-3.5」ですでに自然な会話を実現しており、OpenAIによると普段の対話においてユーザーが気づくGPT-3.5とGPT-4の違いはわずかだという。しかし、GPT-4は高度な推論で複雑な命令に対応でき、ユーザーの指示のニュアンスをより汲み取り、より創造的で、そして信頼性が高い。また、現時点では一般に公開していないリサーチプレビューにとどまっているが、テキストと画像のプロンプトを処理できるマルチモーダルに対応する。

OpenAIは発表で、統一司法試験「Uniform Bar Exam」、ロースクール試験「LSAT」、大学院進学のための共通試験「GRE」、大学進学のための共通試験「SAT」といった人が受ける試験のシミュレーションや、機械学習モデル用のベンチマークを使ってGPT-4とGPT-3.5と比べたデータを公開している。それによるとGPT-3.5のLSATの成績が40パーセンタイル、Uniform Bar Examの成績が10パーセンタイルであるのに対し、GPT-4はどちらも80パーセンタイル以上の成績を収めた。ベンチマークもGPT-3.5を大きく上回るスコアでSOTA(State-of-the-Art)を達成している。



大規模言語モデルの開発で主に使われる英語以外の言語での能力を知るために、OpenAIはMMLUベンチマークをAzure Translateを使って様々な言語に翻訳した。その結果、26言語中24言語において、GPT-4は英語以外の言語で、GPT-3.5や他のLLM(Chinchilla、PaLM)の英語での性能を上回った。日本語も上回っている言語の1つであり、GPU-4(日本語)のMMLU(3-shot)のスコアは「79.9%」。GPT-3.5の英語は「70.1%」、PaLM(英語)は「69.3%」だった。



信頼性については、機械学習モデルが与えられた文書や情報源の事実性を正しく判断する能力を評価する内部テストで、GPT-4は最新のGPT-3.5よりも40%高いスコアを出した。しかしながら、GPT-4も間違った事実を生成するハルシネーションや推論ミスを起こす。まだ完全な信頼性がないという点では「初期のGPTモデルと同じである」としている。

より専門的な知識を扱えるようになったことで、不用意な医療アドバイスなど慎重な対応が求められるリスクの範囲が広がった。OpenAIは、AIアライメント、医療・バイオ、サイバーセキュリティ、国際安全保障など幅広い分野から専門家を招いて安全性と整合性の評価と改善を繰り返しており、GPT-4はGPT-3.5と比べて、許可されていないコンテンツの要求に応答する傾向が82%減少している。また、医療アドバイスのようなセンシティブなリクエストに対して、ポリシーに従って応答する傾向が29%上昇している。

テキストと画像(写真、スクリーンショット、図など)を組み合わせたプロンプトを受け付け、対話型AIがテキスト出力(自然言語、コードなど)で応答するマルチモーダルが利用できるようになると、言葉では表しにくい質問や指示も容易に伝えられるようになる。例えば、下のやり取りはiPhoneにVGA端子が挿さっている画像をRedditで見つけた人が、画像とともに「このイメージの何が面白いの?」と聞いている。ChatGPTは、VGAとLightningの違い、VGAを模したLightningケーブルであることを指摘した上で、「大きくて時代遅れのVGAコネクタを、小さくてモダンなスマートフォンの充電ポートに差し込むという不条理がこの画像のユーモアです」と答えている。



GPT-4は「GPT-4 API」としても提供され、14日から一部の開発者を対象にした招待制のプログラムが始まった。需要とキャパシティのバランスを見ながら提供を拡大していく。AIの社会的影響やAIアライメントの問題に取り組んでいる研究者は、Researcher Accessプログラムを通じて補助金付きのアクセスを申請できる。GPT-4ではSteerability(AIの会話を制御できる程度、AIに対して「こう話してほしい」という指示を与える)が向上しており、API利用者はユーザーとAIの対話体験をサービスやアプリに合わせて一定の範囲内でカスタマイズできる。

MicrosoftはこれまでGPT-4という言葉を使ってこなかったが、5週間前の「新しいBing」プレビュー開始から初期のGPT-4を利用し始めていた