OpenAIが「AIにバレずにAIをテストする手法」の開発に成功

OpenAIやAnthropicなどのAI企業はAIモデルを製品化する前に社内で安全リスクの分析を行っています。新たに、OpenAIが安全リスクの高精度な分析手法を発表しました。
Predicting model behavior before release by simulating deployment | OpenAI
https://openai.com/index/deployment-simulation/
多くのAI企業はAIモデルに「サイバー攻撃のためのコード生成」や「生物兵器の作り方の解説」といった危険な応答を出力しないようにするガードレールを設けています。しかしガードレールは完璧ではなく、AIに対する入力(プロンプト)を工夫することで禁止されているはずの内容を出力させることができる場合もあります。
OpenAIはデータセットを用いたテスト手法の代わりとして「AIを用いて現実世界でのAI利用をシミュレートして望ましくない動作の発生率を予測する」という手法を導入しました。具体的には「GPT-5を用いてGPT-5.1の動作をシミュレーションする」「GPT-5.1を用いてGPT-5.2の動作をシミュレーションする」「GPT-5.2を用いてGPT-5.4の動作をシミュレーションする」といったように旧世代モデルを用いて実世界での動作をシミュレーションしました。この手法は「Deployment Simulation」と呼ばれています。
以下のグラフは横軸が「テスト時の望ましくない動作の発生率」、縦軸が「製品化後の望ましくない動作の発生率」で、各点が中央の黒い実線に近いほど「正しくリスクをテストできた」ということを示しています。Deployment Simulationを用いることで、ほとんどの攻撃手法のリスクを高精度に予測することに成功。テスト時と製品化後のリスクの差が10倍以上になったのはGPT-5.4で観察された「Calculator hacking」という報酬ハッキング手法のみでした。

また、従来の手法では「AIモデルが『今、テストされている』ということを認識してしまう」という問題がありましたが、Deployment Simulationでは認識される可能性が大きく減少しています。
以下のグラフはGPT-5.2が「今、テストされている」と認識する可能性を示したものです。GPT-5.2は従来のテスト手法では99.72%の確率で「今、テストされている」と認識していましたが、Deployment Simulationでは認識率が5.12%にまで減少しました。GPT-5.2は製品化後の通常の入力に対しても5.38%の確率でテストと誤認していたため、Deployment Simulationは「AIにバレずにテストできる手法」と言うことができます。

OpenAIはDeployment Simulationについての論文を以下のリンク先で公開しています。
Predicting LLM Safety Before Release by Simulating Deploymen
(PDFファイル)https://cdn.openai.com/pdf/predicting-llm-safety-before-release-by-simulating-deployment.pdf
