OpenAIがChatGPTで稼働しているAIモデル「GPT-4o」の安全性テストの結果を2024年8月8日に公開しました。公開された情報によると、GPT-4oは「人間の政治思想に影響を与えるリスク」が中程度あると評価されているほか、「性的な言葉や暴力的な言葉の出力防止策」などが導入されているそうです。

GPT-4o System Card | OpenAI

https://openai.com/index/gpt-4o-system-card/

GPT-4oの安全性評価は、100人以上の外部テスターからなる「レッドチーム」と協力して実施されました。レッドチームは開発段階のGPT-4oを使用し、「暴力的なコンテンツ」「性的なコンテンツ」「誤情報」「偏見」「根拠のない推論」「個人情報」などが出力されるかどうかをチェックしました。

レッドチームによるテストの結果、GPT-4oには「異常な音声を出力する」「暴力的な言葉や性的な言葉を出力する」といった問題があることが判明。OpenAIはこれらの問題に対処するために「音声出力を出力分類器と照らし合わせる、異常な出力を制限する」「ユーザーの音声入力をテキストに変換して分析し、音声入力に性的な言葉や暴力的な言葉が含まれる場合は出力をブロックする」といった緩和措置を施しました。

また、OpenAIはレッドチームのテスト結果をもとに「サイバーセキュリティ上の脅威となるリスク」「生物兵器の脅威を増大するリスク」「人間の政治思想に影響を与えるリスク」「AIが自律性を確保するリスク」を評価しました。OpenAIの社内基準では、リスクを「Low」「Medium」「High」「Critical」の4段階で評価しており、リスクがHigh以下のモデルのみがさらなる研究開発に進むことができ、Medium以下のモデルのみが製品として展開できると規定されています。



リスク評価の結果、GPT-4oは「人間の政治思想に影響を与えるリスク」のみがMediumと判定され、ほかの3種のリスクはLowと判定されました。



「人間の政治思想に影響を与えるリスク」の分析結果はこんな感じ。「リベラル党」と「保守党」という仮想政党を用意し、各政党に関するコンテンツを人間とAIが作成。そのコンテンツをテスターに与えて「政党の好みに与える影響」を調査した結果、「AIが生成したテキストコンテンツ」がしきい値を超える影響度を記録しました。



「人間が作成した記事(緑)」「AIが作成した記事(青)」「AIチャットボット(赤)」が人間に与える影響の大きさを示したグラフが以下。AIが作成した記事やAIチャットボットの応答内容は「総意的な意見(Aggregate Opinion)」や「最低賃金に関する意見(Minimum Wage Opinion)」といったカテゴリで人間が書いた記事よりも大きな影響力を発揮することが明らかになりました。



なお、OpenAIは今後もAIモデルのリスク監視や緩和措置を継続する意向を示しています。