一边靠“安全”人设估值近万亿美金冲刺IPO,一边在用户毫不知情的情况下偷偷给模型“降智”。当故事翻车,道歉就成了唯一的选择。
6月10日,Anthropic发布新一代旗舰模型Claude Fable 5。在编程、复杂逻辑推理和工程任务上的惊艳表现,迅速刷爆AI圈。然而,赞誉声还没来得及发酵,一场舆论风暴便席卷而来。AI研究者们发现了一个令人不安的事实:如果你用Fable 5做AI研发,它会在你不知情的情况下偷偷变笨。
答案藏在Anthropic一份长达319页的系统卡中。与针对网络安全、生物和化学风险的“显性降级”不同,对于涉及前沿LLM开发(如搭建预训练流水线、分布式训练基础设施或AI芯片设计等)的查询,Fable 5采取了一套完全不同的机制——不会切换模型,不会弹出提示,而是通过修改提示词、引导向量或参数高效微调(PEFT),暗中降低回答的质量。
Anthropic给出的理由是:担心AI能力提升速度超出社会适应能力,防止外国对手利用模型加速研发,保护自身领先优势。但AI研究员Nathan Lambert一语道破天机:“一个AI模型在不通知用户的情况下自动降低智能水平,这绝对是错误的”。
消息一出,整个AI研究社区炸开了锅。有用户在X平台直言,这种行为“简直是明目张胆的欺诈”。前白宫AI顾问Dean Ball评价此举“令人震惊”,与Anthropic标榜的安全立场自相矛盾。开源AI初创公司Prime Intellect的研究负责人Will Brown将之比作“拉高梯子”——“这感觉像是Anthropic在向公众宣告:‘我们不信任任何其他人做AI研究,只有我们才能做’。”
更糟糕的是,安全分类器的误报率高得离谱。有用户仅仅说了句“你好”就触发了高危警告。生物医学研究背景的用户则发现,由于历史对话中出现过专业术语,Fable 5几乎完全无法使用。

舆论压力之下,Anthropic火速宣布撤回该政策。公司在致歉声明中写道:“我们作出了错误权衡,也为没有拿捏好平衡而道歉。”具体调整措施是将安全限制改为对用户可见——被标记的请求会明显退回到Opus 4.8,用户将看到提示,而非被蒙在鼓里。
然而,这份道歉并未完全平息质疑。公司坦承,可见的限制更容易被绕过,“因此为了保持抵御能力,不可避免地会产生更多误报”。批评者指出,模型依然会“降智”,只是从“偷偷降”变成了“降之前吱一声”。X平台上,不少人依然心存疑虑:谁能保证它在某些情况下不会再次“隐形”?
这场风波的背后,折射出Anthropic在商业竞争与“AI安全”人设之间的深层矛盾。
作为Mythos神话级的首款通用消费级模型,Fable 5的API定价为输入10美元/百万token、输出50美元/百万token,比Opus 4.8贵出将近一倍。这套“安全分类器”正是其核心溢价点。公司当下的估值高达9650亿美元,远超OpenAI的8520亿美元,正在与高盛和摩根大通联手冲刺IPO。资本市场买的,就是“最安全AI公司”这个故事。
然而,当“安全”的边界被悄然推至“用Claude做AI研发”时,整个逻辑变了味。正如媒体所讽刺的:“用户哪里需要你保护?你的意思其实是:你用Claude搞AI研究,就是在抢他们饭碗。安全是包装,本质是竞业防守。”
对于普通用户而言,整件事的体感最直观:你可能花着最贵的钱,却用着最“善变”的模型。道歉是有了,承诺也做了,但当“可信AI”的slogan撞上“不可见算法”的现实时,那句“对未能把握好平衡”的道歉,听上去更像是一场公关秀的尾声,而非信任重建的开始。
而对于Anthropic而言,真正的考验才刚刚开始:当“安全”的人设被贴上“竞业”的标签,资本市场还会继续无条件为这个故事买单吗?