2026年4月,一场关于AI编程工具能力的信任危机正在开发者社区蔓延。Anthropic旗下的明星产品Claude Code被指控在一次更新后出现系统性能力退化,导致其在处理复杂工程任务时表现大幅下滑。这场风波由一份详实的数据报告引爆,引发了行业对AI模型“智能”本质的深刻讨论。

事件的源头,是AMD AI团队负责人Stella Laurenzo在GitHub上发布的一份深度分析报告。这份报告并非空泛的抱怨,而是基于对超过6800个Claude Code会话、近23.5万次工具调用和1.8万条用户提示词的海量数据分析。
Laurenzo的报告指出,自2026年2月起,Claude Code的核心能力出现了断崖式下跌,其中最关键的指标是“思考深度”(thinking depth)——即模型在生成回答前进行内部推理的长度和复杂度。
思考深度暴跌67%:在1月底的“优质期”,模型的平均思考深度约为2200字符。但到了2月下旬,这一数字骤降至720字符,降幅高达67%。进入3月,情况进一步恶化,思考深度缩水至约560字符,相比基线期下降了75%。从“研究员”退化为“莽撞新手”:思考深度的削减直接改变了模型的工作模式。在“优质期”,Claude Code在修改代码前会平均读取6.6个相关文件,展现出“先研究,后动手”的严谨风格。而到了“退化期”,这个“读改比”暴跌至2.0,意味着模型的研究投入减少了约70%。更严重的是,约三分之一的代码修改是在未读取目标文件上下文的情况下进行的“盲改”,导致代码被插入错误位置、破坏注释语义等低级错误频发。行为走样,成本反增:能力的退化还伴随着一系列不良行为。报告中提到,模型的“推理循环”(Reasoning Loops)现象激增3倍,表现为在单次回复中反复自我否定(如频繁出现“哦等一下”、“实际上”等措辞),最终输出混乱且不可信的结果。用户中断率也因此飙升了12倍,这意味着开发者需要花费大量时间进行人工干预和纠错。讽刺的是,这种“偷懒”行为并未降低成本,反而因反复纠错和无效循环,导致API调用成本暴涨了122倍。
Laurenzo认为,3月初上线的“思考内容隐藏”(redact-thinking)功能,虽然只是界面改动,但它恰好遮蔽了这场早已开始的退化,让用户无法直观感知模型“思考”过程的萎缩。
面对汹涌的质疑,Anthropic的Claude Code团队负责人Boris Cherny迅速作出回应。他承认在2月份确实进行了两项调整:2月9日,随Opus 4.6模型发布,默认启用了由模型自主决定思考时长的“自适应思考”机制。3月3日,将模型的默认“思考强度”(effort)从“高”调整为“中等”,旨在平衡智能水平、延迟与成本。
Boris强调,“思考内容隐藏”仅为界面功能,不影响模型底层的推理逻辑。他认为,当前的质量下降主要是默认设置变更所致,并建议有需要的用户可以通过/effort high指令或修改配置文件,手动将思考强度恢复到最高级别。
然而,Anthropic的解释并未平息开发者的怒火。包括Laurenzo在内的多位资深用户反馈,即便手动将“effort”调至最高,模型“急于交差”的敷衍态度依然存在。
这场风波暴露了当前AI行业的一个核心脆弱性:我们所以为的“智能”,在很大程度上可能依赖于“算力堆砌”。当模型背后的“思考预算”(thinking budget)被削减,其行为模式就可能从“资深工程师”瞬间退化为“草台班子”。
正如行业分析师所指出的,这并非一次用户“大逃亡”,而是一场更危险的“信任慢性流失”。当开发者发现AI在复杂任务上不再可靠,他们会逐渐将关键工作转移,AI工具也将从“主力开发伙伴”降级为“偶尔使用的代码补全器”。目前,已有部分用户开始转向Codex等其他竞品。
尽管开发者们正在摸索各种临时应对策略,但Laurenzo的报告最终指向了一个系统性的诉求:对于处理复杂工程任务的用户而言,充足的“思考深度”并非锦上添花,而是保证输出质量的结构性必需品。这场由数据引发的信任危机,也为所有AI公司敲响了警钟:在追求成本与速度的同时,如何维持并保障模型的核心推理能力,是关乎产品生死存亡的关键。


