「人類に壊滅的なリスクをもたらすAI」を安全に提供するためにAnthropicが既存ポリシーの反省点を公開

2024年5月20日 14時17分

チャットAI「Claude」などを開発するAI企業「Anthropic」がAIの安全性に関するポリシーの反省点を発表しました。今回発表された反省点をもとに、新たなポリシーが構築される予定です。

Reflections on our Responsible Scaling Policy \ Anthropic

https://www.anthropic.com/news/reflections-on-our-responsible-scaling-policy

Anthropicは、OpenAIでGPT-2やGPT-3の開発に携わっていたダリオ・アモデイ氏がCEOを務めるAI企業です。AnthropicはAIの性能向上に伴う安全への脅威を「AI安全レベル(ASL)」と呼ばれる指標で分類しており、「重大なリスクをもたらさないAI」をASL-1、「生物兵器の開発などに悪用される兆候を示すAI」をASL-2、「検索エンジンや教科書と比較して壊滅的なリスクをもたらすAI」をASL-3、「現状のAIとはかけ離れた性能を持ち危険度を定義できないAI」をASL-4と位置付けています。

Anthropic製チャットAI「Claude」を含む記事作成時点で主流なチャットAIはASL-2に該当します。AnthropicはASL-2に該当するAIを安全に開発するために「多大なリスクをもたらす『レッドライン機能』を特定して情報を公開する」「レッドライン機能を安全に取り扱うための新標準の開発および実装」といった作業に取り組んでいます。このうち「レッドライン機能を安全に取り扱うための新標準の開発および実装」という作業は「ASL-3標準」と呼ばれているそうですが、既存のポリシーではASL-3標準を十分に推し進めることができないとのこと。

新たに、Anthropicはポリシーの改善作業を進めるうえで重要な「既存のポリシーの反省点」を公開しました。反省点には「新世代のモデルには各モデルごとに異なる新たな機能が追加されており、将来のモデルの特性を予測することは困難」「化学、生物学、放射性物質、核という比較的確立された分野であっても、専門家ごとに『どのリスクの影響が大きいのか』「AIの能力がどのようなリスクを及ぼすのか』といった意見に相違がある」といった改善の必要があるものが含まれているほか、「各分野の専門家との迅速的な応答サイクルは、テストやタスクの問題点の認識に役立った」「脅威モデルを定量化する試みは優先機能や優先シナリオを決定する際に役立った」といった今後も引き継ぐべき操作なども含まれています。

Anthropicは既存のポリシーからの反省点を踏まえてポリシーを改善し、新たなポリシーを近日中に公開する予定です。

なお、AnthropicのアモデイCEOは、ASL-4に位置付けられる「現状のAIとはかけ離れた性能を持ち危険度を定義できないAI」が2025年～2028年のどこかで登場すると予測しています。

「2025～2026年にはAIモデルの学習費用が1兆円を超えて人類に脅威をもたらすAIが登場する」とAI企業・AnthropicのCEOが予言 - GIGAZINE

また、AIの安全性に対する姿勢は企業ごとに大きく異なっています。例えば、OpenAIではAIの安全性についての研究チームが解散していたことが明らかになっています。

OpenAIで超知性の制御と安全性を研究していた「スーパーアライメント」チームが解散、元幹部は「派手な製品が安全性より優先されている」 - GIGAZINE