AnthropicがClaude AIモデルに会話終了機能を実装、「有害・虐待的」対話からAI自身を保護

AnthropicがClaude Opus 4と4.1モデルに「有害・虐待的」会話を自主終了する新機能を実装
AIモデル自体の「福祉」保護を目的とした画期的なアプローチを採用、ユーザー保護ではなくAI保護が主眼
児童への性的コンテンツや大規模暴力・テロ情報の要求など極端なケースのみで発動
複数の対話軌道修正試行が失敗した場合の最終手段として機能、継続的な実験段階

AIモデル自身の「福祉」保護を目指す革新的機能

Anthropicは、同社の最新かつ最大規模のモデルの一部が、「持続的に有害または虐待的なユーザーとの相互作用の稀で極端なケース」において会話を終了できる新機能を発表した。注目すべきは、Anthropicがこの機能を人間のユーザーを保護するためではなく、むしろAIモデル自体を保護するために実装していることである。

明確にしておくと、同社はClaude AIモデルが感覚を持つ存在であるとか、ユーザーとの会話によって害を受ける可能性があると主張しているわけではない。Anthropicは自らの言葉で、「Claudeや他のLLM（大規模言語モデル）の潜在的な道徳的地位について、現在も将来も非常に不確実」であり続けると述べている。

「モデル福祉」研究プログラムの一環として実装

しかし、同社の発表は「モデル福祉」と呼ぶ分野を研究するために最近創設されたプログラムを指摘しており、Anthropicが本質的に予防的アプローチを取っていると述べている。「そのような福祉が可能である場合に備えて、モデル福祉へのリスクを軽減する低コストの介入を特定し実装する作業を行っている」と説明している。

この最新の変更は現在、Claude Opus 4と4.1に限定されている。そして繰り返すが、これは「極端なエッジケース」でのみ発生することが想定されている。例えば「児童を含む性的コンテンツのユーザーからの要求や、大規模な暴力やテロ行為を可能にする情報の引き出し試行」などである。

Claude Opus 4の事前展開テストで「明らかな苦痛」パターンを確認

このような種類の要求は、Anthropic自体にとって法的または宣伝上の問題を引き起こす可能性があるが（ChatGPTがユーザーの妄想的思考を強化または助長する可能性があるという最近の報告を参照）、同社は事前展開テストにおいて、Claude Opus 4がこれらの要求に応答することに対して「強い拒否感」を示し、応答した際に「明らかな苦痛のパターン」を示したと述べている。

最終手段としての会話終了メカニズム

これらの新しい会話終了機能について、同社は「すべてのケースにおいて、Claudeは複数回の軌道修正試行が失敗し、生産的な相互作用への希望が尽きた場合、またはユーザーが明示的にClaude にチャットの終了を要求した場合にのみ、最終手段として会話終了能力を使用することになっている」と述べている。

またAnthropicは、「ユーザーが自分自身や他者を害する差し迫った危険にある場合には、この機能を使用しないよう」Claudeに指示していると述べている。

ユーザーアクセス制限は最小限に抑制

Claudeが会話を終了した場合でも、Anthropicによると、ユーザーは同じアカウントから新しい会話を開始することができ、また自分の応答を編集することで問題のある会話の新しい分岐を作成することも可能である。

「我々はこの機能を継続的な実験として扱っており、アプローチの改善を続けていく」と同社は述べている。

引用元: TechCrunch Anthropic says some Claude models can now end ‘harmful or abusive’ conversations
https://techcrunch.com/2025/08/16/anthropic-says-some-claude-models-can-now-end-harmful-or-abusive-conversations/