Anthropic 表示 AI 在构建 AI——人类可能成为瓶颈

文章上線

Anthropic 表示 AI 在构建 AI——人类可能成为瓶颈

要点摘要

Anthropic 报告称 Claude 现在撰写了合并到公司代码库中超过 80% 的代码，且自 2024 年以来工程师的产出大约增加了八倍。公司主张，AI 已经通过编写代码、执行实验与支持研究，在开发未来 AI 系统方面做出重大贡献。Anthropic 警告说，虽然递归自我改进并非必然，但若趋势持续，AI 可能能够设计自己的后继系统，将人类的角色转向监督与验证。

情绪分析

本文整体语调是谨慎乐观，并带有一些担忧。文章强调了显著的进展——生产力提高与更深层的代理能力——同时强调围绕自主 AI 驱动开发的不确定性与风险。叙事在对快速技术进展的热情与递归自我改进并非必然以及人类判断仍然重要的冷静提醒之间取得平衡。
文章以可验证的指标（代码占比与产出增长）突显正面面向。然而文章也带有关于监督、治理与当前 AI 研究判断力局限的警示语调。这产生了一种混合但偏正向的情绪：承认明显进展，同时以负责任的警告来调和。
65%

文章正文

Anthropic 报告指出，其 Claude 系列模型已成为公司软件开发过程中的核心贡献者，现在产生了合并到主代码库中超过 80% 的代码。根据公司的分析，引入 Claude Code 以及该模型能够执行代码而不仅仅是提出片段，恰逢生产力急剧上升：工程师交付的合并代码数量比 2025 年之前大约提高了八倍。这一变化在每位工程师的产出上可见端倪：在公司早期数年期间产出保持稳定，但在 Claude 开始执行代码并自动化部分开发工作流程后显著增加。

Anthropic 将这些变化框定为 AI 系统参与研究与工程活动方式的更广泛转型的一部分。除了生成代码之外，Claude 还被描述为帮助运行实验、分流问题与协助研究任务——这些功能共同加速迭代并降低人工摩擦。公司建议，当 AI 系统承担更多开发周期中例行与探索性工作时，剩余的人类角色将转向监督：验证结果、确认安全性，并为研究议程设定高层方向。

重要的是，Anthropic 警告当前像代码行数等指标并非衡量生产力或科学进展的完美代理。代码量并不直接等同于长期质量、设计洞见或选择真正有价值研究方向的能力。公司明确指出，虽然趋势指向更高的自动化，但递归自我改进——即 AI 能够自主设计并构建其自身后继者——尚非确定。模型是否具备选择正确问题或在没有人工指导下可靠地追求富有成效研究路线的研究判断力仍然不确定。

尽管如此，这一轨迹提出了合理的情景，即 AI 系统承担越来越多自身进步的责任。Anthropic 概述了多种可能的未来：进展放缓、在广泛自动化例行任务下持续的人类主导监督，或更具变革性的结果——系统逐渐发展出能让它们自主设计改良后继者的能力。公司并未宣称最后一种结果是必然的，但警告若算力与算法改进持续加速，该结果可能比许多组织预期的来得更早。

该报告发表之际，业界在模型定位上正发生广泛转变。企业正把高级模型营销为合作者与代理而非单纯的对话工具。Anthropic 自身也持续迭代 Claude，发布多个版本以强化编码、推理与代理表现，其他公司也推出了各自的生成与代理产品。这些发展激起了关于在研究与产品开发中自动化与人类监督之间适当平衡的讨论。

在运营层面上，Anthropic 预计人类参与将演变为对扩展中的“虚拟实验室”的监督、验证与核查，在该虚拟实验室中 AI 系统可大规模执行并测试想法。公司强调潜在的溢出利益：自动化 AI 研究任务的系统可能会将这些技能转移到其他科学领域，加速机器学习之外的进展。与此同时，Anthropic 强调需要谨慎的治理、安全审查与对齐关注，因为增加的自主性可能同时放大利益与风险。

总之，Anthropic 的报告记录了由像 Claude 这类高能力模型驱动的开发工作流中可衡量的变化，并探讨了这些变化的含义。虽然证据指向显著的生产力提升与 AI 在研究与工程中的更深整合，但公司强调重要的能力缺口与治理挑战仍然存在。关键在于，Claude 仍然缺乏被证明的研究判断力，这意味着人类当前仍然是设置优先级并确保科学方向健全性的必要者。未来可能出现更多自主的 AI 驱动开发，但这将需要谨慎管理、强有力的监督以及持续评估自动化系统可以且应该被允许执行的范围。

关键洞见表

面向	描述
代码贡献	Claude 撰写了超过 80% 的合并代码，反映出其已深度整合到开发工作流程中。
生产力变化	工程师合并的代码量比 2024 年大约增加了八倍，这与 Claude 执行代码并自动化任务有关。
潜在轨迹	结果范围从进展放缓到人在监督下的大量例行任务自动化，或可能的递归自我改进，但最后一项并非保证。
人类角色	预计将转向对 AI 执行的实验与虚拟实验室进行监督、验证与核查。
不确定性	主要未知数包括模型的研究判断力、自动化输出之长期质量，以及增加自主性所需的治理需求。

最後編輯時間：2026/6/5