「GPT-4」発表、司法試験上位10%&日本語でもめちゃくちゃ高性能&画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される
2023年3月14日(火)に、OpenAIが「GPT-4」を正式発表しました。GPT-4はテキストだけでなく画像の入力も受付ける「マルチモーダルAI」として開発されており、「人間用の試験問題を解く」「依頼に従ってプログラミングする」「『この画像は、何が面白いの?』といった質問に答える」といった動作を実現。さらに、日本語を含む英語以外の言語での性能も非常に高度な領域に達しているとのことです。
https://openai.com/research/gpt-4
GPT-4 Product
https://openai.com/product/gpt-4
Announcing GPT-4, a large multimodal model, with our best-ever results on capabilities and alignment: https://t.co/TwLFssyALF pic.twitter.com/lYWwPjZbSg— OpenAI (@OpenAI) March 14, 2023
OpenAIはこれまでもチャットAI「ChatGPT」などの高性能AIを開発してきましたが、今回発表されたGPT-4の性能は既存のAIを大きく上回っているとのこと。OpenAIと協力関係にあるMicrosoftはGPT-4を「初代iPhone登場時と同等の衝撃を与える存在」と評しています。
「GPT-3.5」をベースにしたChatGPTは「司法試験で下位10%に入る」という性能を有していましたが、GPT-4では「司法試験で上位10%に入る」という驚きの性能を発揮するとのこと。OpenAIが公開している得点表を確認すると、「Uniform Bar Exam」「LSAT」といった司法試験や「SAT」などの学力テストでGPT-4がGPT-3.5を大きく上回る得点を記録していることが分かります。また、これらのテストは「テスト向けの特別なチューニング」を施さずに行われたとのこと。
AIの性能を評価する「MMLU」や「HellaSwag」といったベンチマークでも、GPT-4はGPT-3.5を大きく上回るスコアを記録しました。
また、GPT-4は英語以外の言語でも高い性能を発揮します。各言語での性能を示した以下のグラフ(バーが長い程高性能)を見ると、「GPT-4で日本語を処理した際の性能」が「GPT-3.5で英語を処理した際の性能」を上回っていることが分かります。
GPT-4では、テキストだけでなく画像を認識させることも可能です。例えば、GPT-4に以下の画像を示しつつ「この画像の『普通じゃないポイント』を教えて」と質問すると「普通じゃないポイントは、『走行中のタクシーの屋根に取り付けられた台でアイロンを使っている』という点です」と正確に答えてくれます。
GPT-3.5を搭載したChatGPTでは「ソースコードを書いてもらう」という操作が可能でした。GPT-4ではソースコード記述機能が洗練されており、対話しながらソフトウェアを完成させることが可能です。実際にGPT-4にプログラミングを依頼する様子は、以下のムービーで確認できます。
GPT-4 Developer Livestream - YouTube
GPT-4にいくつかの条件を提示しつつ「DiscordでGPT-4と会話できるBOTを作ってください」と依頼。
すると、GPT-4がコードをスラスラ記述してくれます。
しかし、GPT-4が記述したコードを実行してみるとエラーが発生。
GPT-4に「こんなエラーが出ました」と報告します。
すると、エラーが発生したことを謝罪しつつ修正版コードを記述してくれました。
その後も何度か「エラーが発生し、GPT-4に報告」を繰り返した結果、「GPT-4と会話できるBOT」が完成しました。
なお、GPT-4は既に有料サービス「ChatGPT Plus」の会員向けに公開されています。また、以下のリンク先からAPIのウェイトリストに登録することもできます。
GPT-4 API waitlist
https://openai.com/waitlist/gpt-4-api