自然な文章を生成する言語モデルは、通常であればセーフティがかかっていて、人間が不快だと感じることを言わなかったり、不適切な情報を出したりしないように訓練されています。ところが、最初の訓練で悪意を仕込まれた言語モデルは、後のテストで安全であることが確かめられたとしても、将来的に脆弱(ぜいじゃく)性が露呈してくる可能性があることが調査により判明しました。[2401.05566] Sleeper Agents: Training Deceptive LL
ランキング
- 総合
- 国内
- 政治
- 海外
- 経済
- IT
- スポーツ
- 芸能
- 女子