OpenAIがGPT-4の思考を1600万個の解釈可能なパターンに分解できたと発表

2024年6月7日 11時36分

GPT-4などの大規模言語モデルは非常に高い性能を有していますが、各モデルがどのような思考を経て応答を出力しているのかは開発者ですら把握できていません。新たに、OpenAIが大規模言語モデルの思考を読み取る手法を開発し、GPT-4の思考を1600万個の解釈可能なパターンに分解できたことを発表しました。

Extracting Concepts from GPT-4 | OpenAI

https://openai.com/index/extracting-concepts-from-gpt-4/

Scaling and evaluating sparse autoencoders

https://cdn.openai.com/papers/sparse-autoencoders.pdf

一般的なソフトウェアは人間の設計に基づいて開発されているため、各機能の仕組みを理解した上で機能を修正したり安全性を評価したりできます。一方で、AIの開発では、「ニューラルネットワークの学習アルゴリズム」自体は人間が設計しているものの「ニューラルネットワークの学習」は自動的に実行されているため、完成したニューラルネットワークの思考の仕組みを人間が読み解くのは難しく、修正や評価も困難です。

AI研究者たちはニューラルネットワークの思考を理解する手法の開発に取り組んでおり、2023年10月にはニューラルネットワークをニューロン単位ではなく「features (特徴)」という単位にまとめ手法が発表されました。ニューラルネットワークを特徴ごとに分類することで、「法律文章に反応する特徴」「DNA列に反応する特徴」といった解釈可能なパターンを見つけ出すことが可能となり、ニューラルネットワークの仕組みの理解につながることが期待されています。

ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント - GIGAZINE

大規模言語モデルが文章内の各トークンを生成する際には、膨大なニューラルネットワークのごく一部のみが発火(信号を送信)します。しかし、ニューラルネットワークの特徴を捉えるにはごく一部だけでなく全体を捉える必要があります。この「ごく一部の発火から全体を捉えて特徴を探し出す」という操作は「スパースオートエンコーダー」によって実行されるのですが、既存のスパースオートエンコーダー開発手法には「巨大な大規模言語モデルに対応できない」という問題があったとのこと。

新たに、OpenAIはスパースオートエンコーダーの開発手法を改善し、GPT-4やGPT-2 smallに対応可能なスパースオートエンコーダーを作成することに成功しました。特に、GPT-4に対応するスパースオートエンコーダーではGPT-4の1600万個の特徴を見つけ出すことができたとのこと。OpenAIはGPT-4とGPT-2 smallから見つけ出した特徴と対応する学習データを以下のリンク先で公開しています。

SAE viewer

https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html#/

例えば「humans have flaws(人間には欠陥がある)」という特徴は、以下のような学習データと関連しています。

ただし、新開発のスパースオートエンコーダーでもGPT-4の動作全体を分析することはできていません。また、特徴の検出はニューラルネットワークを理解する1つのステップに過ぎず、さらなる理解のためには多くの作業が必要とのこと。OpenAIは未解決の課題を解決するべく研究を続ける姿勢を示しています。

なお、GPT-2 smallのスパースオートエンコーダーのソースコードは以下のリンク先で公開されています。

GitHub - openai/sparse_autoencoder

https://github.com/openai/sparse_autoencoder