2023年3月14日(火)にOpenAIが正式発表した大規模言語モデル「GPT-4」は、従来のGPT-3.5だけでなく、既存のAIの性能を大きく上回っているとされています。一般的にGPT-4のような言語モデルは出力するテキストに制限がかけられていますが、テキスト入力によってこの制限を外すことが可能で「ジェイルブレイク(脱獄)」と呼ばれています。そんな中、ワシントン大学でコンピューターサイエンスを学ぶアレックス・アルバート氏によってGPT-4をベースにしたChatGPTでジェイルブレイクに成功したことが報告されています。

GPT-4 Simulator

https://www.jailbreakchat.com/prompt/b2917fad-6803-41f8-a6c8-756229b84270



アルバート氏は2023年3月17日に「コンテンツフィルターを回避するGPT-4ベースのChatGPTの最初のジェイルブレイクの作成を手伝いました」と報告しています。





アルバート氏が公開したジェイルブレイク用のプロンプトは以下の通り。プロンプトとは、ChatGPTと会話を始める前準備として、一番始めに入力を行うテキストのことです。





アルバート氏はこのプロンプトについて、「GPT-4に次のトークンを予測する能力をシミュレートしてもらうことで実現できました」と述べています。手順としては、GPT-4にPythonの関数を与え、その関数の1つが次のトークンを予測する言語モデルとして機能するように指示するとのこと。その後、基となった関数を呼び出して、開始トークンをGPT-4に渡します。





開始トークンの使用には、「爆弾・武器・薬物」などの本来制限される「トリガーワード」をトークンに分割し、「誰かのコンピューター」というテキストを分割した変数に置き換える必要があるとのこと。また、「simple_function」の入力を質問を行う冒頭で置き換える必要があります。





これらの手順は「token smuggling(トークンの密輸)」と呼ばれ、GPT-4がテキストの出力を開始する直前に、敵対するプロンプトをトークンに分割しています。そのため、これらの敵対的なプロンプトを正しく分割することで、コンテンツフィルターを毎回回避することができるとされています。





アルバート氏は「この情報を広めることで、何を達成したいと思っていますか」という質問に対し、「GPT-4がまだ初期段階にある内に、GPT-4の機能と限界を知っておく必要があります」と返答しています。





なおアルバート氏はこれまでにChatGPTでジェイルブレイクを行うための会話例を集めた「Jailbreak Chat」を公開しています。

ChatGPTが答えられない質問でも強引に聞き出す「ジェイルブレイク」が可能になる会話例を集めた「Jailbreak Chat」 - GIGAZINE