韓国・ソウルで開催された第2回のAIサミットで、AI開発に取り組む世界の企業16社がAIの安全性で合意しました。合意に関連して、「GPT-4o」などを開発するOpenAIは安全性に関して自分たちが取り組んでいる実践例を公開しています。

OpenAI safety practices | OpenAI

https://openai.com/index/openai-safety-update/



1:リリース前の実証的のモデルへのレッドチーミング(敵対的攻撃)とテスト

OpenAIでは、AIのリリース前にモデルの安全性を社内外で実証的に評価しています。リスク閾値が準備フレームワークで中程度を超えた場合、緩和後スコアが中程度に戻るだけの安全対策を行うまで新モデルはリリースしません。また、70人以上の外部の専門家がレッドチームとしてGPT-4oのリスク評価に協力しました。

2:アラインメントと安全性の研究

OpenAIのモデルは時間の経過とともに安全になっていきます。これは、よりスマートなモデルを構築することで、事実誤認が減少し、ジェイルブレイクのような敵対的状況下でも有害なコンテンツを出力する可能性が下がったためです。また、実用的アラインメントや安全システム、訓練後の研究に集中的に投資してきた効果もあります。これらの取り組みは、人間が生成した微調整データの品質を向上させ、将来的にはモデルが従うように訓練される命令の改善に機能します。また、ジェイルブレイクなどの攻撃に対するシステムの堅牢性を劇的に向上させるための基礎研究を行い、公開しています。

3:乱用の監視

OpenAIはAPIやChatGPTを通じて高性能な言語モデルを展開し、専用のモデレーションモデルや、安全性のリスクや悪用監視の独自モデル使用など、幅広いツールを活用しています。その過程で、他のユーザーが同様のリスクから適切に保護されるように、国家機関による技術悪用をMicrosoftと共同開示するなど、重要な調査結果を共有しました。また、GPT-4をコンテンツポリシーの策定やコンテンツモデレーションの決定にも使用し、ポリシー改良のためのフィードバックループを可能にして、人間のモデレーターが悪質なコンテンツにさらされる頻度を減らしています。

4:安全のための体系的アプローチ

事前トレーニングから導入まで、OpenAIではライフサイクルの各段階でさまざまな安全対策を実施しています。より安全で整合性のあるモデル動作の開発を進めるとともに、事前トレーニングデータの安全性、システムレベルのモデル動作制御、継続的な安全性向上のためのデータフライホイール、堅牢なモニタリングインフラにも投資しています。

5:子どもたちの保護

OpenAIの安全活動の重要な焦点は、子どもたちを保護することです。ChatGPTやDALL・Eには、子どもへの潜在的な危害を軽減する強力なガードレールと安全対策が組み込まれています。2023年には、OpenAIのツールでCSAM(児童性的虐待記録物)を扱おうとしたとき検出・検証して報告する仕組みが導入されました。OpenAIは各専門組織や広範な技術コミュニティと協力し、「Safety by Design」の原則を守っています。



6:選挙の完全性

OpenAIはAI生成コンテンツの透明性を確保し、正確な投票情報へのアクセスを改善するために政府などと協力しています。具体的には、DALL・E 3で作成された画像を識別するツールを導入し、データ編集の履歴を残すための技術仕様「C2PA」のメタデータを組み込むことで、ネット上で見つけたコンテンツの出典を確認できるようにしています。また、ChatGPTはユーザーをアメリカやヨーロッパの公式な選挙の情報源に誘導するようになっています。このほか、OpenAIはアメリカの上院で提案されている超党派法案「Protect Elections from Deceptive AI Act(欺瞞的AIから選挙を守る法)」を支持しています。

7:影響評価と政策分析への投資

OpenAIの影響評価の取り組みは、AIシステムに関連する化学・生物・放射線・核リスク測定に関する初期研究や、言語モデルによりさまざまな職業や業界がどれぐらい影響を受けるかの研究など、広い範囲に影響を与えています。また、社会が関連するリスクとどれぐらい管理するべきなのか、たとえば外部の専門家と協力して影響力のある活動に対する言語モデルの影響を評価するなどの、先駆的な研究も行っています。

8:セキュリティとアクセスコントロール管理

OpenAIは顧客、知的財産、データ保護を最優先しています。OpenAIはAIモデルをサービスとして世界中に展開し、APIを介してアクセスを制御しています。OpenAIのサイバーセキュリティの取り組みには、トレーニング環境や価値の高いアルゴリズム機密への必要な範囲のアクセス制御、社内外の侵入テスト、バグ報奨金プログラムなどが含まれます。高度なAIシステムを保護するためにはインフラセキュリティの進化が有益だとOpenAIは考えており、技術保護のために、GPUの機密コンピューティングやサイバーセキュリティへのAI応用のような斬新な制御方法を模索しています。また、サイバーセキュリティ強化のため、助成金プログラムで研究家に資金を提供しています。

9:政府との提携

OpenAIは世界中の政府と提携し、効果的で適用可能なAI安全政策の開発に情報を提供しています。この取り組みには、OpenAIが学んだことの共有や、政府やその他第三者機関の保証の試験的実施のための協力、新基準や法律をめぐる議論に情報を提供することなどが含まれます。

10:安全に関する意思決定と取締役会の監督

準備態勢フレームワークの一環として、OpenAIには安全性に関する意思決定のための運用体制があります。部門を横断する安全アドバイザリーグループは、モデル能力報告書を検討し、展開に先立って勧告を行います。最終的な決定は会社の首脳陣が行い、取締役会が決定内容を監督します。

こうしたアプローチによって、OpenAIは安全で能力の高いモデルを構築し展開できたと述べています。