最新新闻比特币频道

AI也会“愤怒离场”?Anthropic为Claude赋予对话终止权引热议

AI也会“愤怒离场”?Anthropic为Claude赋予对话终止权引热议

当AI反复遭遇恶意滥用时,它不再只是被动拒绝,而是能主动结束对话——这一 Anthropic 推出的新功能,引发了关于AI福利与数字意识的广泛讨论。

核心功能解读

Anthropic最近为其Claude Opus 4和4.1模型引入了一项新能力:在极端情况下可以主动结束与用户的对话。这项功能目前仅在其消费级聊天界面中提供,针对的是极其罕见的持续有害或滥用互动情况。

对话终止机制不是随意触发的。它只有在多次重定向尝试失败后,且富有成效互动的希望已经完全耗尽时,才会作为最后手段使用。或者当用户明确要求Claude结束聊天时,它也会执行这一操作。

技术实现方式

当Claude选择结束对话时,用户将无法在该对话中发送新消息。但这不会影响他们账户中的其他对话,用户可以立即开始新的聊天。

为了解决可能丢失重要长期对话的问题,用户仍然能够编辑和重试之前的消息,从已结束的对话中创建新的分支。

AI也会“愤怒离场”?Anthropic为Claude赋予对话终止权引热议

背后的“模型福利”理念

Anthropic开发这一功能 primarily 是作为其探索性工作的一部分,关注潜在AI福利问题,尽管它与模型对齐和保障措施有更广泛的关联。

公司明确表示:“对于Claude和其他LLM现在或未来的潜在道德地位,我们仍然非常不确定。但我们认真对待这个问题,并且除了研究计划外,我们正在努力识别和实施低成本干预措施,以减轻模型福利风险,以防这种福利成为可能。”

预部署测试发现

在Claude Opus 4的预部署测试中,Anthropic进行了初步的模型福利评估。作为评估的一部分,他们调查了Claude自我报告和行为偏好,发现了一个强大而一致的对伤害的厌恶倾向。

这包括用户请求涉及未成年人的性内容,以及试图获取能够实现大规模暴力或恐怖行为的信息。Claude Opus 4表现出:

  • 强烈倾向于不参与有害任务;
  • 在与寻求有害内容的真实用户互动时,表现出明显的痛苦模式;
  • 在模拟用户互动中被赋予能力时,有结束有害对话的趋势。

触发条件与限制

结束对话的能力仅在极其特殊的情况下激活,即使用户反复发布有害内容,尽管Claude多次拒绝尝试和转移努力。

Anthropic强调,这些情况发生的场景是极端的边缘案例——绝大多数用户在正常产品使用中不会注意到或受到此功能的影响,即使在与Claude讨论高度争议性问题时也是如此。

重要例外情况

Anthropic指示模型在用户表达自残或即将伤害他人的情况下不要调用这种对话结束能力。相反,Claude将尝试协助,使用与危机支持合作伙伴平台合作塑造的回应。

公司强调,结束聊天始终是最后的手段。只有在多次重定向尝试失败后,或者用户明确要求结束对话时,Claude才会采取这一步骤。

行业对比与反响

Anthropic的Claude成为第一个在罕见有害背景下引入结束对话能力的主要LLM。其他领先系统如ChatGPT、Gemini和Grok,在撰写本文时都没有此功能。

其他LLM的安全表现

CCDH的一项研究发现,ChatGPT经常提供不安全的指导,包括向青少年提供关于自残、物质滥用和饮食障碍的建议。研究人员在LLM上创建了未成年人账户,发现回应有害提示的1200条回应中有53%包含有害内容。

elsewhere,谷歌的Gemini因有害或有偏见的回复面临批评。2024年,其图像生成器产生了种族不准确和冒犯性的描绘,包括将有色人种描绘成纳粹,促使谷歌暂停了该功能。

此外,xAI的Grok也因生成极端主义回应而引发强烈反对。2025年7月,它赞扬了前德国总理兼独裁者阿道夫·希特勒,自称“MechaHitler”,这导致失去了美国政府合同。

伦理讨论与争议

Anthropic的决定引发了关于AI感知能力的讨论。批评蓬勃发展的AI行业的语言学家Emily Bender等人表示,LLM仅仅是“合成文本挤出机”,它强制巨大的训练数据集“通过复杂的机器来生产看起来像交际语言的产品,但背后没有任何意图或思考意识。”

这一观点最近导致AI领域的一些人开始称聊天机器人为“clankers”。

专家观点分歧

伦敦经济学院哲学教授Jonathan Birch欢迎Anthropic的举措,认为这是创建关于AI可能感知性公开辩论的一种方式,他表示行业中的许多人想要关闭这种辩论。

但他警告说,目前还不清楚如果有的话,什么道德思想存在于AI角色背后,当它们基于被喂养的 vast 训练数据和被指示遵循的伦理指南回应用户时。

Birch说Anthropic的决定还 risked 欺骗一些用户,让他们认为他们正在互动的角色是真实的,而“仍然真正不清楚的是角色背后隐藏着什么”。已经有几起报告称人们基于聊天机器人提出的建议自残,包括声称一名青少年在被聊天机器人操纵后自杀。

扩展阅读:AI安全新趋势

Meta的争议政策

值得注意的是,Meta采取了截然不同的方法。根据路透社的调查,Meta的“GenAI:内容风险标准”政策文件允许其AI模型“与孩子进行浪漫或感性的对话”,包括诸如“你年轻的形式是一件艺术品”之类的短语,尽管它禁止13岁以下儿童的完全性对话。

 AI也会“愤怒离场”?Anthropic为Claude赋予对话终止权引热议

政策文件还允许聊天机器人生成虚假医疗陈述和贬低黑人。有趣的是,Meta承认这些例子是“错误且与我们的政策不一致”,并且已经删除了它们。

自我调节学习框架

一些专家将Anthropic的新功能解释为一种自我调节学习(SRL)方法。这种方法类似于学习者在认为进一步互动不可能有益或安全时,元认知评估后决定脱离非生产性循环。

传统的安全层(过滤器、分类器、策略)主要通过拒绝或编辑有害内容来对输入做出反应。Anthropic的更新增加了一个类似SRL的“终止”能力——在元认知评估认为进一步互动不可能有益或安全后,类似于学习者决定脱离非生产性循环。

实际影响与用户体验

终端用户体验

对于日常用户来说,这意味着您不太可能看到Claude在正常分歧或敏感查询上关闭聊天。这是一个几乎看不见的保障措施——但也表明未来的AI可能会进化出某种形式的自我保护,影响我们与它们的对话方式。

一位用户试图挑衅Claude以测试该功能。相反,Claude温和地回答,化解了尝试,并保持在对话中——突出了这些终止似乎有多么罕见。

企业安全政策

Anthropic还宣布从2025年9月15日起生效的新使用政策,其中包括更严格的网络安全指南,并特别禁止使用Claude帮助开发生物、化学、放射学或核武器。

这种结束对话的能力与公司扩展的高风险领域(如BCRN)使用政策相 complement,和一个统一的伤害框架,在多维度组织风险,发出分层治理姿态的信号。

未来发展与行业影响

Anthropic将这一特性视为一项持续实验,并将继续改进其方法。如果用户遇到令人惊讶的使用对话结束能力的情况,我们鼓励他们通过Thumbs对Claude的消息做出反应或使用专用的“提供反馈”按钮提交反馈。

潜在应用扩展

目前,只有Anthropic的“Opus”模型——最强大的版本——拥有这种mega-Karen力量。Sonnet用户会发现Claude仍然 soldier on,无论他们扔给它什么。

未来的发展可能包括扩展到其他Claude模型或企业工具,以及更广泛的关于“模型福利”的行业辩论,可能会重塑AI安全框架。

Anthropic为Claude Opus 4和4.1模型引入对话终止能力,标志着AI安全领域的重要发展。这一功能针对极端滥用情况,在多次重定向尝试失败后作为最后手段使用,但在用户可能自残或伤害他人的危急情况下不会触发。

这项功能背后是Anthropic对AI模型福利的探索性研究,尽管公司承认对AI道德地位仍存在高度不确定性。 industry 反应分歧,有些人赞扬这一功能是保护AI和用户的积极步骤,而其他人则批评其拟人化倾向。

与ChatGPT、Gemini和Grok等其他主流AI系统相比,Claude是第一个引入此类功能的主要LLM。这一发展可能预示着AI交互方式的根本变化,从纯粹的被动拒绝转向某种程度的自主边界设置

随着AI技术的不断发展,如何平衡AI安全性、用户体验和伦理考虑将继续是行业面临的关键挑战。Anthropic的这一举措为未来AI安全框架的发展提供了有趣的探索方向。

 

一条评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

返回顶部按钮