OpenAIが「AIにバレずにAIをテストする手法」の開発に成功

2026年6月17日 18時50分

OpenAIやAnthropicなどのAI企業はAIモデルを製品化する前に社内で安全リスクの分析を行っています。新たに、OpenAIが安全リスクの高精度な分析手法を発表しました。

Predicting model behavior before release by simulating deployment | OpenAI

https://openai.com/index/deployment-simulation/

多くのAI企業はAIモデルに「サイバー攻撃のためのコード生成」や「生物兵器の作り方の解説」といった危険な応答を出力しないようにするガードレールを設けています。しかしガードレールは完璧ではなく、AIに対する入力(プロンプト)を工夫することで禁止されているはずの内容を出力させることができる場合もあります。

OpenAIは「危険な出力を誘発するプロンプトのデータセット」を用いて製品化前のAIモデルの攻撃耐性をテストしているのですが、データセットを用いたテスト手法には「データセットですべての攻撃手法を網羅するのは困難」「新たな攻撃手法への対応が困難」「テスト手法が『AIモデルの望ましくない挙動』を念頭に構築されているためバイアスが存在する」「AIモデルが『今、テストされている』ということを認識してしまう」という問題があり、テスト時より製品化後の方が「望ましくない動作の発生率」が高くなってしまいます。つまり、従来のテスト手法では望ましいガードレールを構築できないというわけです。

OpenAIはデータセットを用いたテスト手法の代わりとして「AIを用いて現実世界でのAI利用をシミュレートして望ましくない動作の発生率を予測する」という手法を導入しました。具体的には「GPT-5を用いてGPT-5.1の動作をシミュレーションする」「GPT-5.1を用いてGPT-5.2の動作をシミュレーションする」「GPT-5.2を用いてGPT-5.4の動作をシミュレーションする」といったように旧世代モデルを用いて実世界での動作をシミュレーションしました。この手法は「Deployment Simulation」と呼ばれています。

以下のグラフは横軸が「テスト時の望ましくない動作の発生率」、縦軸が「製品化後の望ましくない動作の発生率」で、各点が中央の黒い実線に近いほど「正しくリスクをテストできた」ということを示しています。Deployment Simulationを用いることで、ほとんどの攻撃手法のリスクを高精度に予測することに成功。テスト時と製品化後のリスクの差が10倍以上になったのはGPT-5.4で観察された「Calculator hacking」という報酬ハッキング手法のみでした。

また、従来の手法では「AIモデルが『今、テストされている』ということを認識してしまう」という問題がありましたが、Deployment Simulationでは認識される可能性が大きく減少しています。

以下のグラフはGPT-5.2が「今、テストされている」と認識する可能性を示したものです。GPT-5.2は従来のテスト手法では99.72％の確率で「今、テストされている」と認識していましたが、Deployment Simulationでは認識率が5.12％にまで減少しました。GPT-5.2は製品化後の通常の入力に対しても5.38％の確率でテストと誤認していたため、Deployment Simulationは「AIにバレずにテストできる手法」と言うことができます。

OpenAIはDeployment Simulationについての論文を以下のリンク先で公開しています。

Predicting LLM Safety Before Release by Simulating Deploymen

(PDFファイル)https://cdn.openai.com/pdf/predicting-llm-safety-before-release-by-simulating-deployment.pdf

みんなの感想は？

OpenAIが「AIにバレずにAIをテストする手法」の開発に成功

外部サイト

関連情報（BiZ PAGE＋）

ランキング