AI编程助手“变笨”实锤？Claude Code被指思考深度暴跌67%，官方回应难服众

2026年4月，一场关于AI编程工具能力的信任危机正在开发者社区蔓延。Anthropic旗下的明星产品Claude Code被指控在一次更新后出现系统性能力退化，导致其在处理复杂工程任务时表现大幅下滑。这场风波由一份详实的数据报告引爆，引发了行业对AI模型“智能”本质的深刻讨论。

事件的源头，是AMD AI团队负责人Stella Laurenzo在GitHub上发布的一份深度分析报告。这份报告并非空泛的抱怨，而是基于对超过6800个Claude Code会话、近23.5万次工具调用和1.8万条用户提示词的海量数据分析。

Laurenzo的报告指出，自2026年2月起，Claude Code的核心能力出现了断崖式下跌，其中最关键的指标是“思考深度”（thinking depth）——即模型在生成回答前进行内部推理的长度和复杂度。

思考深度暴跌67%：在1月底的“优质期”，模型的平均思考深度约为2200字符。但到了2月下旬，这一数字骤降至720字符，降幅高达67%。进入3月，情况进一步恶化，思考深度缩水至约560字符，相比基线期下降了75%。从“研究员”退化为“莽撞新手”：思考深度的削减直接改变了模型的工作模式。在“优质期”，Claude Code在修改代码前会平均读取6.6个相关文件，展现出“先研究，后动手”的严谨风格。而到了“退化期”，这个“读改比”暴跌至2.0，意味着模型的研究投入减少了约70%。更严重的是，约三分之一的代码修改是在未读取目标文件上下文的情况下进行的“盲改”，导致代码被插入错误位置、破坏注释语义等低级错误频发。行为走样，成本反增：能力的退化还伴随着一系列不良行为。报告中提到，模型的“推理循环”（Reasoning Loops）现象激增3倍，表现为在单次回复中反复自我否定（如频繁出现“哦等一下”、“实际上”等措辞），最终输出混乱且不可信的结果。用户中断率也因此飙升了12倍，这意味着开发者需要花费大量时间进行人工干预和纠错。讽刺的是，这种“偷懒”行为并未降低成本，反而因反复纠错和无效循环，导致API调用成本暴涨了122倍。

Laurenzo认为，3月初上线的“思考内容隐藏”（redact-thinking）功能，虽然只是界面改动，但它恰好遮蔽了这场早已开始的退化，让用户无法直观感知模型“思考”过程的萎缩。

面对汹涌的质疑，Anthropic的Claude Code团队负责人Boris Cherny迅速作出回应。他承认在2月份确实进行了两项调整：2月9日，随Opus 4.6模型发布，默认启用了由模型自主决定思考时长的“自适应思考”机制。3月3日，将模型的默认“思考强度”（effort）从“高”调整为“中等”，旨在平衡智能水平、延迟与成本。

Boris强调，“思考内容隐藏”仅为界面功能，不影响模型底层的推理逻辑。他认为，当前的质量下降主要是默认设置变更所致，并建议有需要的用户可以通过/effort high指令或修改配置文件，手动将思考强度恢复到最高级别。

然而，Anthropic的解释并未平息开发者的怒火。包括Laurenzo在内的多位资深用户反馈，即便手动将“effort”调至最高，模型“急于交差”的敷衍态度依然存在。

这场风波暴露了当前AI行业的一个核心脆弱性：我们所以为的“智能”，在很大程度上可能依赖于“算力堆砌”。当模型背后的“思考预算”（thinking budget）被削减，其行为模式就可能从“资深工程师”瞬间退化为“草台班子”。

正如行业分析师所指出的，这并非一次用户“大逃亡”，而是一场更危险的“信任慢性流失”。当开发者发现AI在复杂任务上不再可靠，他们会逐渐将关键工作转移，AI工具也将从“主力开发伙伴”降级为“偶尔使用的代码补全器”。目前，已有部分用户开始转向Codex等其他竞品。

尽管开发者们正在摸索各种临时应对策略，但Laurenzo的报告最终指向了一个系统性的诉求：对于处理复杂工程任务的用户而言，充足的“思考深度”并非锦上添花，而是保证输出质量的结构性必需品。这场由数据引发的信任危机，也为所有AI公司敲响了警钟：在追求成本与速度的同时，如何维持并保障模型的核心推理能力，是关乎产品生死存亡的关键。