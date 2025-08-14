待望の「GPT-5」がリリースされたが…

OpenAIの次世代ベース・モデル「GPT-5」が先週金曜日（日本時間）にリリースされた。今年の初めから期待が高まっていた割には、一般の反応というか評判はいま一つのようだ。

少なくとも筆者の知る限り、新聞やテレビなど大手メディアでGPT-5のリリースをまともに取り上げたのは日本経済新聞くらい。それ以外の報道機関は「完全無視」とまではいかないまでも、普段のニュース番組や紙面の中で、ほんのちょっと触れる程度の小さな扱いだったように見受けられる。

これは恐らく海外も同じで、たとえば米国ではニューヨークタイムズやウォールストリートジャーナルをはじめ主要メディアは（各社ホームページからA4用紙に印刷して）せいぜい2〜3ページ程度と比較的短い記事でその紹介を済ませていた。

リリースされたばかりのGPT-5が、ある種の「期待外れ」という印象を与えたことは間違いないようだ。

もちろん、これまで幾つもの種類に分岐して複雑化していたモデルを、GPT-5では統合してすっきり一本化した点、あるいは無料で（GPT-5という）最新モデルを利用できるようにした点などは相応に評価されているようだ。

が、その一方で、肝心の（GPT-5の）性能がかつてGPT-2からGPT-3に、あるいはGPT-3からGPT-4にアップグレードしたときほど劇的な向上が見られない点が「期待外れ」の主な理由と見られる。

性能が頭打ちしたのか、それとも？

そこにはいわゆる「スケール則」、つまり「大規模言語モデル（LLM）の規模や学習量を増やせば、それに従ってモデルの性能も向上する」という（この10年近くに渡って続いた）経験則がここに来て限界に達した、あるいは限界に近付いている、という見方もある。一般にモデルの性能が「サチる（頭打ちする）」と呼ばれる現象だ。

もちろん、そうした悲観的な見方も一面としてはあり得るかもしれないが、一方で（GPT-5のような）最新モデルの性能を評価するのが、（少なくとも一般ユーザーには）段々難しくなってきたという面もあろう。

今回、サム・アルトマンCEOをはじめOpenAIの関係者はGPT-5について「博士課程レベルの専門家に近づいた」と（若干、手前味噌的に）評価しているが、仮にその通りだとしても一般ユーザーの中で「博士号」を取得している人が一体何人いるだろうか（因みにChatGPT-5によれば、世界人口における博士号保持者の割合は約1パーセントという）。

逆に言えば、それ以外の99パーセントの人たち（筆者も含まれる）にはGPT-5の性能を正しく評価するのは不可能、ないしは極めて困難ということになる。なぜなら博士レベルの知能を評価するには、その評価者自身にも博士レベルの専門知識や見識といったものが必要と考えられるからだ。

となると、今回リリースされたGPT-5に対する一般ユーザーあるいはメディアの反応（評判）がいま一つパッとしないのは、実際にはGPT-5の性能が期待外れに終わったというより、むしろ（報道関係者も含め）私達ユーザーの方がこれを正確に評価することが難しくなってきた、あるいはそもそも「どう評価すればいいのか分からない」という面もあるのではなかろうか。

つまり、ここ数年をかけてGPT-3、4、5と進化してきて、その知的レベルがそろそろ一般人による評価の枠外にはみ出しつつあるのかもしれない、ということだ。

ベンチマーク・テストよりも実感が問題

もちろんOpenAIの方では（LLMのプログラミング能力を測る）「SWE Bench」や（科学系の能力を測る）「GPQA」、あるいは（数学能力を測る）「AIME 2025」など様々なベンチマーク・テストの結果（いずれも高スコア）を紹介して、GPT-5の並外れた能力を人々に訴えている。

しかし、これら専門的なテスト結果を見せられても、私達一般ユーザーには今一つピンと来ない、というのが正直な感想ではなかろうか。私達にとって重要なのは、むしろGPT-5のようなAIモデルを自分で使ってみて「おお、これは凄いな！」「前のモデルに比べて、随分進化したな！」という実感の方だ。

そういう実感がここにきて段々得難くなっている理由は、ひょっとしたら（前述のように）モデルの性能が頭打ちになってきたせいかもしれないし、あるいは（同じく前述のように）単に私達ユーザーの方が「モデルの性能を正しく（あるいは十分に）評価できていない」せいなのかもしれない。

いずれにせよ、GPT-5のような最新モデルの性能を評価するのが一筋縄ではいかなくなってきたことは間違いない。つまり、こうしたAIを評価する私達人間の方も、ある程度の工夫や努力を迫られているということだ。

量子力学の基本的な概念を理解しているか？

たとえばマイクロソフトの元エンジニアで起業家・投資家の中島聡氏は、最近ユーチューブ動画の中で、量子力学における「確率」や「観測」など基本的だが実は深遠な概念に関する質問をGPT-5に投げかけることで、その実力を推し測ろうとしている。

https://www.youtube.com/watch?v=YnSFaadVlfY

中島氏の専門は言うまでもなくコンピュータ・ソフトウエアで、逆に量子力学に関しては専門外だ。が、（上の動画の中では）「コインを投げた時の表と裏」のような「日常世界における古典的確率」と「（量子の）スピンのアップ、ダウン」のような「微視的世界における量子力学的な確率」の違いなど、物理に興味のある人なら聞いてみたくなるような質問をGPT-5に投げかけている。

この質問に対しGPT-5はまさに「立て板に水」のごとくスラスラと回答するが、中島氏は「そんな通り一遍の答えでは納得できない」とばかりに、より踏み込んだ質問を投げかける。これに対してGPT-5はまたも淀みなく答えるが、中島氏は「それでも納得できない」という様子で、より一層踏み込んだ質問をするなど延々15分間も質疑応答を重ねた挙句、同氏は結局最後まで納得できる答えをGPT-5から得ることができなかったようだ。

この動画を最後まで見終えた人は、恐らく「なんでここまでくどくど聞かなくちゃいけないんだろう？」と思われるかもしれないが、ここまでしつこく聞かない限りGPT-5が本当に量子力学を理解しているかどうかを確かめられないからだ。

一般にGPT-5のようなLLMはウェブ上を中心に膨大な情報（データ）を機械学習した結果として誕生するが、それら学習用データの中には一般向けの物理学解説書なども当然含まれている。LLMがこれらの内容をコピペして使えば（前述の）「立て板に水」の回答も可能だが、それでは本当に量子力学を理解していることにはならない。

むしろ中島氏のようなユーザーが投げかける質問のポイント、つまり「先程の回答のどこが（ユーザーの）腑に落ちていないか」をきちんと把握した上で、それに寄り添った丁寧かつ核心的な回答をできるかどうかが、（GPT-5のような）先端AIが（量子力学のように）難解な学問領域を本当に理解しているか否かの証となる。この点で（少なくとも上の動画を見た限りでは）GPT-5は正直、未だ微妙なフェーズにあると言えそうだ。

もちろんGPT-5がそれを「理解していない」と断定することもできない。むしろ「かなり良い線まで近づいている」という印象がある。

2022年11月末にChatGPTがリリースされてから今日まで、そのベースにあるGPTシリーズのような大規模言語モデル（LLM）に対しては、「この種のAIは、ある単語の後に続く確率が最も高い単語を出力しているに過ぎない」と貶されてきた。

https://gendai.media/articles/-/103362?imp=0

つまり「所詮は確率的な動作メカニズムなので、私達人間のように本当に考えているわけではないし、言語やそれが織りなす意味・概念を理解しているわけではない」という批判だ。こうした冷徹でシニカルな見解は、実際にはChatGPTがリリースされる遥か以前から存在する。

が、これらの批判は今では的外れなものとなっている。

確かにLLMが確率的な原理に従って次々と単語を出力しているのは事実だし、今後ともこうした基本的な原理やメカニズムは変わらないだろう。が、この種のAIが次の単語を出力する際に使用するデータの特徴量、つまり分析軸の数は既に（一つ前のベースモデルである）GPT-4の段階で少なくとも「数万次元」に達したと見られている。

OpenAIは最新のGPT-5に関して、こうした分析の次元数（特徴量の総数）を明らかにしていないが、恐らくはGPT-4など以前のモデルよりも格段に多くの次元数を採用しているだろう。つまり「ありとあらゆる角度（次元）から見て、この単語の後に続く単語はこれしかない」といった徹底した分析の末に、次の単語を出力しているのだ。これは事実上「考える」という行為に匹敵すると見ていいだろう。

そもそも私達人間も半ば無意識のうちに、これらLLMと同様「多次元の分析に基づく確率プロセス」に従って日常的な発話、ないしは意味・概念を形成しているとの見方すらある。つまり「（所詮は確率過程に従う）LLMは人間のように考えていない」という説は恐らく当たらない。

つまり両者は本質的に同じものかもしれないし、仮に違っていたとしても「LLMはLLMなりの仕方で考えており、それは決して人間に劣るものではない」という評価が恐らく妥当だろう。

一般ユーザーが評価するまでには時間が必要

問題は「こうした原理に従うAIがこの先、どこまで進化するのか」という点だ。

今年1月に米トランプ政権下で発表されたスターゲイト計画に代表されるように、今ではLLMのような先端AIの開発、ないしはそのインフラ整備に数百億〜数千億ドル（数十兆円）に上る巨額資金が投入されるようになってきた。

いずれは人知を遥かに超える「スーパー・インテリジェンス（超知能）」と呼ばれるウルトラAIが実現すると信じているからこそ、これら桁外れの投資が正当化されるわけで、逆に今後それが期待外れに終わった場合には壮大なバブルが弾けることになるだろう。

直近のGPT-5がやがてそれら「超知能」へと発展していくのか、それともこれ以上の実質的進化は望めない「袋小路」に陥るのか？――これは恐らく（アルトマン氏らOpenAI関係者が一つの評価基準として挙げた）博士号を持たない大多数のユーザーでもいずれ判断できるようになるだろう。

確かに私達の多くは「物理」や「化学」「生物学」あるいは「会計学」や「哲学」「心理学」など様々な分野の専門知識を有していない。

が、それでも数か月あるいはそれ以上の十分な時間をかけて使っている間には、GPT-5が並外れた思考力や洞察力、見識を備えた「本物の賢者（ないしは、いずれそれへと成長する資質を備えた有望な存在）」なのか、それとも博士レベルの専門知識を大量に蓄えただけの「将来性の無い存在」に過ぎないかは、何かの折に触れて自然に分かってくるはずだ。

