AI Finally Learns to "Self-Disclose"! Anthropic's Latest Paper Shakes the AI World, "Introspective Adapter" Enables Black-Box Models to Reveal Hidden Behaviors

Leiphone

雷锋网

Apr 30, 2026, 07:59 AM

在过去两年的大模型工业化进程中，安全审计始终遵循着一套 “猫鼠游戏” 的默认设定：开发者微调模型以增强能力，而安全专家则通过红队测试（Red Teaming）或白盒探测来寻找潜在的 “后门” 或 “偏见”。这套逻辑的前提是：模型是一个被动的受访者，它的行为必须由外部观测者通过穷举输入或数学解构来 “审判”。然而，当 OpenAI、Anthropic、Meta 等公司全面开放微调 API 后，微调带来的不可检测行为成为了最严峻的安全挑战之一。过去我们审计模型，始终沿着一条低效的路径：通过外部输入去 “探测” 模型。黑盒测试就像在干草堆里找针，覆盖率极低；白盒分析试图解码数千亿参数的神经元，计算成本高得离谱且准确率有限；直接询问则完全失效，因为经过对抗训练的模型会系统性撒谎。 2024 年首次披露的 “加密微调攻击” 更是让传统手段全线溃败：攻击者将有害指令加密后植入，模型只对密文响应，审计员在明文世界里永远抓不到现行。 2026 年 4 月 28 日，Anthropic 联合剑桥大学 Ashwood AI 科学与政策中心在 arXiv 发布了一篇震动 AI 安全界的论文：《In