大手AI企業はAIが倫理的に問題のある回答を出力しないよう調整を繰り返しています。しかし、AIの性能が向上するにつれて、AIが人間の意図したとおりに振る舞っているのかを判断することはますます困難になりつつあるそうです。そこで、こうした調整にAIを利用する方法についてAnthropicが実験を行いました。Automated Alignment Researchers: Using large language models to scale scalable oversight \ Anthropichttps://www.ant