「Claude Fable 5のこっそりナーフ」についてAnthropicが公式声明を発表、AI研究用途でのモデル弱体化を改善へ

2026年6月12日 10時41分

Anthropicは高性能AI「Claude Fable 5」を2026年6月9日にリリースしましたが、Claude Fable 5には「AI研究への利用時にユーザーに通知することなくモデルを弱体化する」という仕組みが組み込まれており、AI研究者などから不満の声があがっています。このモデル弱体化の仕組みについて、Anthropicが改善を約束する声明を発表しました。

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8-the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…— ClaudeDevs (@ClaudeDevs) June 11, 2026

Claude Fable 5は「Claude Mythosにセキュリティ対策を施した製品版」という位置付けで、Claude Mythosと同等の高度な処理能力を安全に使えるモデルとしてアピールされています。しかし、Claude Fable 5のセキュリティ対策について「Helloなどの無害な入力でもセーフガードに引っかかる」といった問題が報告されているほか、「AI開発用途の場合、ユーザーに通知することなく性能が制限される」というルールの存在が問題視されています。

「Claude Fable 5」をAIの開発に利用するとこっそり性能が制限されることが判明、セキュリティ対策も厳しすぎて不満が続出 - GIGAZINE

Claude Fable 5のセーフガードは「問題が検出された場合、Claude Fable 5での応答を停止してClaude Opus 4.8に引き継ぐ」という仕組みで動作しており、Claude Opus 4.8に移行する際に通知が表示されます。しかし、Claude Fable 5の仕様をまとめた(PDFファイル)システムカードの13ページには「フロンティアLLMの開発に利用する場合、ユーザーに通知することなくClaude Fable 5の応答精度を制限する」という内容が記されています。つまり、Claude Fable 5をAI研究に活用しようとすると、気付かないうちに低性能なAIによる出力を受け取ることになってしまうわけです。また、「フロンティアLLM」の定義が曖昧であり、通知も表示されないため、AI研究者からは「どのような利用方法が問題とみなされるのか分からない」という不満の声が上がっていました。

Anthropicは問題の指摘を受けて日本時間の2026年6月11日に公式Xアカウントで声明を発表しました。声明には「今週中に、フロンティアLLMの開発に関するフラグ付きのリクエストはClaude Opus 4.8に明示的にフォールバックされるようになる。これはサイバー攻撃や生物兵器に関するセーフガードと同等のものになる。API経由での利用時はフラグ付きのリクエストについて拒否理由を提示する」と記されており、AI研究関連の会話についても他の会話と同等の処理フローに変更されることが明言されました。

AnthropicはAI研究用途での会話をユーザーに通知せずに制限していた理由について「我々はClaude Fable 5を迅速かつ安全に展開しようとした。可視化されたセーフガードは探知されやすく、堅固かつ正しく実装するのに時間がかかる。不可視のセーフガードはターゲットを絞りやすいため、誤判定を少なく抑えつつ迅速リリースできる。このため不可視のセーフガードを選択したが、それは誤りだった。我々はユーザーに対して可視化されたセーフガードを提供するべきだった」と説明しています。また、Anthropicは「セーフガードを可視化することで回避が容易となるため、ジェイルブレイクに対する防御性能を保つために分類器を改善するまでの間は誤判定が増えることになる」とも述べています。

一般的にAIサービスのセーフガードは「安全性を保ちつつ誤判定を少なくする」というアプローチで実装されます。しかし、Claude Fable 5のセーフガードは全セッションの5％を危険と判断するほどの厳しめな設定となっており、「生物医学の研究者が『Cancer(がん)』や『Hello(こんにちは)』と入力しただけで危険と判断された」という事例も報告されています。Anthropicはサイバー攻撃と生物兵器に関する分類器の調整も約束しており、誤判定の頻度を減らしていく姿勢を示しています。

みんなの感想は？

「Claude Fable 5のこっそりナーフ」についてAnthropicが公式声明を発表、AI研究用途でのモデル弱体化を改善へ

外部サイト

関連情報（BiZ PAGE＋）

ランキング