ChatGPTやClaude、Geminiなど、人間のように自然な会話ができる大規模言語モデル(LLM)ベースのチャットボットAIが登場しています。レポーターでテレビプロデューサーのマキシム・ロット氏が、さまざまなチャットボットAIに人間用の知能指数(IQ)テストを解かせて推定IQを計測したところ、AnthropicのLLMであるClaude 3の推定IQが人間の基準値である100を超えたと報告しました。

AIs ranked by IQ; AI passes 100 IQ for first time, with release of Claude-3

https://www.maximumtruth.org/p/ais-ranked-by-iq-ai-passes-100-iq



ロット氏はさまざまなLLMに、ノルウェー・メンサのIQテストを2回ずつ受けさせ、その平均正解数からIQを推定しました。その結果をまとめたのが以下の画像。最もIQテストの成績が優れていたのは、Anthropicが2024年3月にリリースしたClaude 3で、推定IQは101でした。一般的にIQの基準値は100とされているので、Claude 3は平均的な人間とほぼ同等であるということになります。また、Anthropicは「Claude 3はGPT-4を上回る性能」とアピールしていましたが、少なくともロット氏が行ったIQテストの結果では、Claude 3の方がChatGPT-4を上回っています。



Claude 3の先行モデルであるClaude 1とClaude 2の推定IQはそれぞれ64と82でした。Claude 1がリリースされたのは2023年3月、Claude 2は2023年7月で、Claude 3がリリースされたのが2024年3月だったことから、ロット氏は「数年以内に推定IQ140程度のAIが誕生するのではないか」と予想しています。

それ以外の順位をみてみると、ChatGPT-4の推定IQは85で、2位にランクインしています。一方、ChatGPT-3.5は64でした。また、MicrosoftのBing Copilotの推定IQは79点で、ロット氏は「Microsoftは、GPT-4を開発したOpenAIの技術を使っているので、ChatGPT-4に近い点数なのは驚くべきことではないかもしれません」とコメントしています。

また、ロット氏は、Bing Copilotが入力した問題について「アスキーアート」を使って視覚的な回答を提示して驚いたと述べています。



GoogleのマルチモーダルAIであるGeminiの推定IQは77.5で、その上位版であるGemini Advancedは76でした。上位版の方が低い推定IQをたたきだしていますが、その理由は不明です。

イーロン・マスク氏が設立したAI開発企業・xAIが開発するチャットボットAI「Grok」の推定IQは68.5ですが、より刺激的な回答が期待できるGrok Fun(楽しいモード)は少し下がって64でした。そして、MetaのオープンソースLLMであるLlama-2の推定IQは67となっています。

ロット氏は「AIは単に大規模なデータベースを持つだけではなく、何らかの知性を持っているかもしれません。 さらに、IQテストをAIの進歩速度を測るのに使うことができます。この進歩がこのまま続けば、数年後には世界は大きく変わっていることでしょう。ただし、AIが『世界を征服する』などと心配する必要があるかどうかというのは、おそらく現実的な懸念ではありません」と語りました。

なお、今回の推定IQはあくまでもロット氏がIQテストの成績から導出したものであり、Claude 3の推定IQが100を超えたからといって人間の知能を超えたということを意味するわけではないので注意が必要です。