by Focal Foto

OpenAIの対話型AIであるChatGPTは、大規模言語モデルのGPT-3.5の派生系をベースにしており、まるで人間が書いたような自然な文章で対話することが可能です。ChatGPTのどういう点が画期的なのかについて、ジョン・ストークス氏が説明しています。

ChatGPT Explained: A Normie's Guide To How It Works

https://www.jonstokes.com/p/chatgpt-explained-a-guide-for-normies

処理プロセスには、特定の入力が与えられると常に同じ出力を生成する「決定論」と、特定の入力が与えられると出力が確率によって変化する「確率論」の2つがあります。ストークス氏によると、ChatGPTの画期的な部分は、これまで決定論的な処理をしていた部分もすべて確率論的な処理をしている点だそうです。

例えば、カプセルトイの機械に100円を入れてハンドルを回すと、必ずカプセルが出てきます。「100円」という入力に対して「カプセル」という出力が得られるという意味で、カプセルトイの機械は決定論的だといえます。



by jpellgen (@1179_jp)

しかし、肝心のカプセルの中身は同じではありません。10種類のフィギュアが当たるカプセルトイであれば、各種が同数入っていたと仮定すると、欲しいフィギュアが出てくる確率は10分の1になります。この場合、「100円」という一定の入力に対して「カプセルの中身」という出力が異なる可能性があると考えれば、カプセルトイの機械は確率論的と解釈できます。



by K W Reinsch

ChatGPTもこのカプセルトイと同じで、入力されたテキスト(プロンプト)に対して確率処理に基づいて言葉を選択し、出力しています。

ストークス氏は、ChatGPTを原子が持つ電子の軌道に例えています。以下の図は水素原子の電子を視覚化したもので、色が濃いほど電子が存在している確率が高いことを示しています。中学校の理科では「原子核の周囲を同心円状に電子がまわっている」という原子モデルを教わりますが、実際に電子の位置を明確に特定することは不可能なので、「原子核の周囲に確率的に存在している」としか説明できません。つまり、この電子軌道の図はあくまでも確率分布を示したものだというわけです。



ChatGPTも、この電子軌道のように「言葉の確率分布」のようなものだとストークス氏。ChatGPTの言語モデルとは意味不明な文字の羅列からシェイクスピアの一節まで、「トークン」とよばれる文字の集合体が確率論的に存在しています。そして、ChatGPTの入力欄に単語を入力すると、トークンの関連性と確率に基づいたランク付けによって、文章が組み立てられていきます。

技術的にどのような確率処理を行っているのかについては、以下の記事でまとめられています。

ChatGPTは何をしていてなぜ機能するのか?を理論物理学者が解説 - GIGAZINE



例えば、画像生成AIのStable Diffusionでは、同じプロンプトと同じシード値を入力して同じ設定で生成すると、毎回同じ画像が生成されます。Stable Diffusionに特定のプロンプトとシード値を入力すると、学習した内容の特徴量が分布する「潜在空間」にある特定のポイントをピックアップし、同じ出力を生成するからです。

一方、ChatGPTは確率処理で文章を作り上げています。普通であれば「最もランク付けの高い」のトークンを選択するように設定しますが、ChatGPTはあえてランク付けの低いトークンも選ぶように設定されているとのこと。さらにストークス氏によれば、Stable Diffusionで言うところのシード値を、プロンプトを入力する度に強制的に変更するような仕組みになっているそうです。そのため、出力結果にランダム性が生まれるというわけです。



また、ChatGPTは「会話」を行うAIなので、直前に入力したプロンプトだけではなく、それまでの会話履歴全体を取得して使用する仕様となっています。そのため、ChatGPTと会話を重ねるほど入力プロンプトは大きくなり、出力量も増えるほか、回答の精度が上がります。

なお、ChatGPTは人間のように言語を理解しているのではなく、確率的に文字を並べて文章を作り上げています。そのため、ChatGPTが確率処理を行って出力した文が、見た目は人間が書いたように自然な文章だったとしても、その内容がメチャクチャだったり矛盾していたりすることがあります。このような時、ChatGPTが「幻覚を見ている」と表現されます。