跳过正文

Anthropic改写AI安全规则:从“死守禁令”到“理解原则”

Anthropic刚刚对其AI助手Claude的“宪法”动了根本性手术,这不是一次版本更新,而是一次安全哲学的根本转向。其目标直指当前大模型最尴尬的软肋:那些可以被轻易绕过的、僵化的规则列表。

简单说,Anthropic试图让Claude学会“理解精神”而非“死守条文”。过去,AI安全像一份密密麻麻的“禁止事项清单”(例如:不能教人做炸弹、不能发表仇恨言论)。这次改革后,Claude将基于更抽象、更广泛的原则(例如:促进福祉、避免伤害)进行自我推理和判断。这意味着,当面对一个清单上未曾预料到的、边界模糊的请求时,AI不再简单地“找不到规则,所以放行”,而是尝试根据原则做出更符合人类价值观的响应。

这不仅仅是技术升级,更是对OpenAI的“侧翼攻击”。 在模型基础能力差距逐渐缩小的当下,Anthropic正在将竞争引向自己最擅长的战场:安全与信任。OpenAI依赖的RLHF(人类反馈强化学习)本质上是让AI模仿人类标注员的偏好,过程像个黑箱,且容易被对抗性提示(越狱)攻破。而Anthropic的“宪法AI”方法论,则试图将价值观对齐过程透明化、形式化——让AI根据成文宪法进行自我批评和改进。这次从“规则”到“原则”的跃迁,是其方法论的自然演进,旨在建立更坚固、更可泛化的安全护栏。对于金融、法律、医疗等高风险行业的企业客户来说,一个能讲清楚“为什么拒绝”且更难被绕过的AI,吸引力正在急剧上升。

然而,理想很丰满,现实可能依旧骨感。 用“原则”替代“规则”,听起来很美,但本质上是用一种更高级的模糊去替代低级的模糊。如何确保AI对“避免伤害”或“促进福祉”的理解与人类完全一致?这本身可能引入新的、更难以追溯和调试的偏差。用户可能会发现,Claude的拒绝理由从生硬的“违反规则第3.2条”,变成了更玄学的“这与普世善治原则存在潜在冲突”。此外,更复杂的内部原则审查机制,很可能以牺牲响应速度或增加计算成本为代价。攻击者也不会闲着,他们很快就会从“寻找规则漏洞”转向“探索原则的边界”。

Anthropic选择在此时亮剑,意图明显:在全球AI监管框架落地的窗口期,将自己塑造为“负责任AI”的标杆,从而在企业和监管机构心中建立高信任壁垒。这步棋很聪明,但胜负远未分晓。真正的考验在于,这套“原则性AI”在实际应用中,是能展现出令人信服的、人性化的判断力,还是仅仅演变成另一套更难以捉摸的“玄学规则”。AI安全的终极难题,从来不是制定规则,而是让机器真正理解人类的意图。Anthropic迈出了一大步,但离终点还有很远。


原文链接:Anthropic overhauled Claude’s “Constitution” to enable the AI to generalize and apply broad principles rather than mechanically follow specific rules (Beatrice Nolan/Fortune)

本文由 AI 辅助生成,仅供参考。