OpenAIは2026年6月18日、AIに正直さや不確実性を認める謙虚さ、訂正を受け入れる姿勢、公平性などの有益な性質を学習させると訓練に使っていない分野でも望ましい振る舞いが広がり、悪意ある指示にも崩されにくくなるという研究結果を公開しました。Reinforcement learning towards broadly and persistently beneficial modelshttps://alignment.openai.com/beneficial-rl/健康相談で存在しない医学論文を自信満々に紹介したり、