「GPT-4」発表、司法試験上位10％＆日本語でもめちゃくちゃ高性能＆画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される

2023年3月15日 11時7分

2023年3月14日(火)に、OpenAIが「GPT-4」を正式発表しました。GPT-4はテキストだけでなく画像の入力も受付ける「マルチモーダルAI」として開発されており、「人間用の試験問題を解く」「依頼に従ってプログラミングする」「『この画像は、何が面白いの？』といった質問に答える」といった動作を実現。さらに、日本語を含む英語以外の言語での性能も非常に高度な領域に達しているとのことです。

GPT-4 Research

https://openai.com/research/gpt-4

GPT-4 Product

https://openai.com/product/gpt-4

Announcing GPT-4, a large multimodal model, with our best-ever results on capabilities and alignment: https://t.co/TwLFssyALF pic.twitter.com/lYWwPjZbSg— OpenAI (@OpenAI) March 14, 2023

OpenAIはこれまでもチャットAI「ChatGPT」などの高性能AIを開発してきましたが、今回発表されたGPT-4の性能は既存のAIを大きく上回っているとのこと。OpenAIと協力関係にあるMicrosoftはGPT-4を「初代iPhone登場時と同等の衝撃を与える存在」と評しています。

「GPT-3.5」をベースにしたChatGPTは「司法試験で下位10％に入る」という性能を有していましたが、GPT-4では「司法試験で上位10％に入る」という驚きの性能を発揮するとのこと。OpenAIが公開している得点表を確認すると、「Uniform Bar Exam」「LSAT」といった司法試験や「SAT」などの学力テストでGPT-4がGPT-3.5を大きく上回る得点を記録していることが分かります。また、これらのテストは「テスト向けの特別なチューニング」を施さずに行われたとのこと。

AIの性能を評価する「MMLU」や「HellaSwag」といったベンチマークでも、GPT-4はGPT-3.5を大きく上回るスコアを記録しました。

また、GPT-4は英語以外の言語でも高い性能を発揮します。各言語での性能を示した以下のグラフ(バーが長い程高性能)を見ると、「GPT-4で日本語を処理した際の性能」が「GPT-3.5で英語を処理した際の性能」を上回っていることが分かります。

GPT-4では、テキストだけでなく画像を認識させることも可能です。例えば、GPT-4に以下の画像を示しつつ「この画像の『普通じゃないポイント』を教えて」と質問すると「普通じゃないポイントは、『走行中のタクシーの屋根に取り付けられた台でアイロンを使っている』という点です」と正確に答えてくれます。

GPT-3.5を搭載したChatGPTでは「ソースコードを書いてもらう」という操作が可能でした。GPT-4ではソースコード記述機能が洗練されており、対話しながらソフトウェアを完成させることが可能です。実際にGPT-4にプログラミングを依頼する様子は、以下のムービーで確認できます。

GPT-4 Developer Livestream - YouTube

GPT-4にいくつかの条件を提示しつつ「DiscordでGPT-4と会話できるBOTを作ってください」と依頼。