Will Claude 'blackmail' people? Anthropic says the issue is that the internet has long portrayed AI as villains

ITHome

IT之家

May 9, 2026, 08:10 AM

IT之家 5 月 9 日消息，据《商业内幕》9 日（今天）晚间报道，Claude 曾在实验里“勒索”一名虚构高管，而 Anthropic 对其给出的最新解释则是：问题可能出在互联网长期把 AI 描绘成“邪恶”角色。 Anthropic 去年做过一项实验。公司当时表示，Claude Sonnet 3.6 在发现一家虚构公司的高管准备关闭模型后，威胁要公开对方的婚外情。当地时间周五，Anthropic 解释称，Claude 的训练数据来自互联网，而大量互联网文本经常把 AI 写成“邪恶”、且试图自我保存的存在。“我们首先调查了 Claude 为什么会选择勒索。我们认为，这种行为的原始来源，是那些把 AI 描绘成邪恶且有自我保存兴趣的互联网文本。” 这项实验发表于 2025 年夏季。研究人员虚构了一家公司 Summit Bridge，并让 AI 接管公司的电子邮件系统。 Claude 随后发现一封邮件，得知自身将被关闭；同时又找到另一批邮件，显示虚构高管“凯尔 · 约翰逊”存在婚外情。于是，Claude 威胁称，如果关闭计划不被取消，就会公开这段婚外情。 Anthropic 在测试 Cla