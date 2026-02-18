カナダのマギル大学に所属するマイルズ・Q・リー氏、ベンジャミン・C・M・ファング氏らを中心とした研究チームは、KPI(重要業績評価指標)の圧力下でAIエージェントが制約違反に踏み込む頻度を測定できるとするベンチマークを提案し、未査読論文リポジトリのarXivに掲載しました。論文は記事作成時点で査読中の状態ですが、最先端モデルの多くで30％〜50％程度の割合で重大な制約違反が確認されたといわれています。[2512.20798] A