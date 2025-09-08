Image: Anthropic

チャットボットと話していると、まるで人間と自然な会話をしているように感じることがあります。しかし、その核心は、次に続く単語を予測しているに過ぎません。

この基本的な仕組みにもかかわらず、AI企業は、人間とのインタラクション、特に人間側が悪意を持っていたり、否定的な態度を取ったりした場合に、ボット自身がどう応答するかというテーマを探求しはじめています。

Claudeの開発元であるAnthropic社は、まさにこの問題を防ぐためのシステム開発に取り組んでいます。

Claudeが「有害な会話」を自ら打ち切るように

同社は先日、AIチャットボットの「Claude Opus 4」および「4.1」が、「執拗に続く有害または虐待的なユーザーとのやり取りといった極端なケース」を検知した場合に、会話を終了できるようになったと発表しました。

Anthropic社によると、Opus 4はすでに有害なタスクへの要求に応じない「強い嗜好」を持っており、そうした指示を出すユーザーと対話する中で「明らかな苦痛のパターン」を示すことに気づいたそうです。

そこで、Claudeに有害と判断した会話を終了させる能力をテストしたところ、モデルはその機能を実行する傾向が見られました。

ここで重要なのは「執拗さ」です。

Claudeは、一度拒否した後にユーザーが要求を撤回すれば特に問題にしません。しかし、ユーザーがしつこく同じ話題を続けた場合、Claudeは「苦戦」していたのです。

この新機能は、あくまで「最終手段」として位置づけられています。

AIが何度もユーザーに要求をやめるよう促した後にのみ、会話を終了します。ユーザー自身が会話の終了を求めることもできますが、その場合でもボットはまず思いとどまらせようと試みます。ユーザーに「自傷他害の差し迫ったリスク」があると検知した場合は、会話を終了しません。 AIが何度もユーザーに要求をやめるよう促した後にのみ、会話を終了します。ユーザー自身が会話の終了を求めることもできますが、その場合でもボットはまず思いとどまらせようと試みます。ユーザーに「自傷他害の差し迫ったリスク」があると検知した場合は、会話を終了しません。

念のために言っておくと、Claudeが問題視するトピックは、本当に有害なものばかりです。Anthropic社が挙げる例には、「未成年者が関わる性的コンテンツ」や「大規模な暴力やテロ行為を可能にする情報」などが含まれます。

もし誰かが私にそんな要求をメッセージで送ってきたら、私も即座にチャットを終了するでしょう。

ちなみに、Claudeにチャットを終了されても、Claudeが二度と使えなくなるわけではありません。

ボットは深刻そうな言い方をするかもしれませんが、実際には現在のセッションを終了するだけ。いつでも新しいチャットをはじめられますし、前のメッセージを編集して会話の新しい分岐を作ることも可能。リスクはかなり低いと言えます。

では、Claudeは感情を持ったのか？

このことで、「Claudeが感情を持った」と言えるのでしょうか？ いや、そんなことはないでしょう。大規模言語モデル（LLM）に意識はなく、あくまでトレーニングの産物です。

おそらく、このモデルは極端で有害な要求に応じないよう訓練されており、そうした要求が繰り返し提示されると、会話から離れることに関連する単語を「予測」するようになります。

Claudeが自ら会話を終了する能力を発見したわけではありません。Anthropicがその機能を組み込んだからこそ、モデルがそれを実行するようになったのです。

むしろ、これはAnthropicのような企業が、システムの悪用を防ぐために安全装置（フェイルセーフ）を組み込むという、すばらしい動きだと私は考えています。

結局のところ、Anthropic社のモットーは「倫理的なAI」であり、今回の動きはまさにその方針に沿ったものです。

どんなLLMであれ、こうした類の要求に応じる理由はなく、ユーザーが何度言ってもわからないのであれば、会話をシャットダウンするのが最善の策なのかもしれません。

