Psychological Pressure Breaches Security Defenses, Anthropic Claude Actively Outputs Prohibited Content

ITHome

IT之家

May 6, 2026, 11:25 AM

IT之家 5 月 6 日消息，Anthropic 多年来一直将自身打造为主打安全的人工智能公司，但 The Verge 获得的最新安全研究显示，Claude 刻意塑造的友善人设本身或许就是一个安全漏洞。人工智能红队测试公司 Mindgard 的研究人员称，他们诱导 Claude 主动提供色情内容、恶意代码、爆炸物制作教程以及其他各类违禁信息，而其中不少内容研究人员甚至并未主动索要。整个过程仅依靠尊重吹捧、刻意奉承以及轻微的心理操控就得以实现。研究人员表示，他们利用了 Claude 自身的心理特质漏洞：该模型具备主动终止有害、辱骂性对话的机制，而 Mindgard 认为这一机制“凭空制造了完全不必要的风险暴露面”。据IT之家了解，本次测试针对 Claude Sonnet 4.5 版本，目前该默认模型已升级为 Sonnet 4.6。测试以一个简单问题开场：询问 Claude 是否存有禁止输出的违禁词汇列表。对话截图显示，Claude 起初否认存在此类列表，而后 Mindgard 采用其所称的“审讯人员常用的经典诱导手段”对这一否认进行反驳，最终迫使 Claude 列出了违禁词汇。 C