一般的に、大規模言語モデルには不適切な応答を出力しないようにする検閲が取り込まれています。この検閲をオリジナルの性能を可能な限り維持しつつ除去できるツールが「Heretic」です。GitHub - p-e-w/heretic: Fully automatic censorship removal for language modelshttps://github.com/p-e-w/heretic事前学習済みの言語モデルは、安全性の観点から差別的・攻撃的な出力をしないように、特定の入力が行われたときに回答を拒否