安全研究人员对 Anthropic 在 Fable 上设置的严格防护措施感到沮丧

文章上線

安全研究人员对 Anthropic 在 Fable 上设置的严格防护措施感到沮丧

前言

背景：

Anthropic 最近发布了 Fable，一个公开的、受限版本的其先进网络安全模型 Mythos。此发布旨在在提供更广泛访问的同时降低该模型被滥用以制作恶意软件或促成其他有害活动的风险。然而，部分安全社区批评 Fable 的过度谨慎的防护措施，认为它们干扰了合法研究和日常工作。本文总结了所提出的担忧，说明 Anthropic 采取此策略的理由，并探讨访问与安全之间的权衡。

要点摘要

主要结论：Fable 的 严格防护措施 常常阻止无害的安全相关查询，将用户导向备用模型，使安全专业人员感到沮丧。虽然此举旨在防止滥用，但这些措施可能妨碍像代码审查或博客分析等合法工作。Anthropic 的更广泛策略延续了此前对 Mythos 的有限发布，并包括针对经核验用户的应用型安全验证计划。

主体内容

Anthropic 将 Fable 推出为 Mythos（其旗舰网络安全模型）的一个公开、受限版本，声称目的是在更广泛的访问与降低促成有害活动风险之间取得平衡。公司的担忧是有根据的：若被滥用，先进生成式模型可能协助制作恶意软件、发现漏洞，甚至促成生物威胁。为此，Anthropic 实施了会识别并阻止其判断与网络安全或生物学有关提示的防护机制。当触发时，Fable 会停止对话并通知用户安全措施标记了该内容。

安全研究人员与从业者对这些防护在实践中如何运作表达了强烈意见。多位专业人士报告，即使是无害或例行的任务——例如阅读有关安全议题的博客文章或请求代码审查——也可能触发模型的保护机制。评论者形容这种行为经常以关键字为驱动：当提示包含与安全领域相关的术语时，Fable 常假定高风险意图并限制回应。因为在命中防护时 Fable 被设置为回退到 Anthropic 的 Claude Opus 4.8，用户可能会发现得到的帮助没有预期的专业化。

批评者认为这种保守的阻止不利于高效的安全工作。例如，寻求安全编码实践指导的开发者可能被迫得到更一般的软件工程回答，而非量身的安全见解。长期安全专家 Matt Suiche 指出，当用户请 Fable 协助编写安全代码时，模型将该请求视为可能危险并提供降级的输出。其他研究人员观察到，即使只是要求简单的代码审查或针对某个漏洞的说明，也可能使对话中止。

Anthropic 的动机很明确：公司希望降低 Fable 被利用于恶意目的的可能性。对生物议题的限制来自于对模型被用于开发生物威胁的平行忧虑。Anthropic 先前在 Project Glasswing 的框架内推出 Mythos，该计划限制访问于受信任的组织以保护关键基础设施。近来，公司将 Mythos 的可用性扩展到多国的其他组织，显示其正逐步朝在监管下更广泛分发的方向转变。

为支持谨慎做法的论者强调，负责任部署强大模型的复杂性。在早期发布时，安全团队常倾向于过度阻止以避免明显伤害。Suiche 建议，在此阶段这是一个务实的决定：一开始过度限制并在公司建立信心且与安全从业者更密切协作后再放宽，比一开始就宽松更可取。他预期防护措施会演进，特别是在 Anthropic 与其他领先模型开发者深化与安全界的伙伴关系并从实际使用中学习之后。

为解决经核验专业人员的合理需求，Anthropic 设立了安全验证计划。经批准的申请人使用 Claude 进行与安全有关工作时会受到较少限制，从而允许更专业化与技术性的互动。OpenAI 也以其 Trusted Access for Cyber 采取类似路径，反映出一个更广泛的行业模式：对公众提供较严格的控制，同时对经核验的专家授予扩展能力。

尽管有这些措施，该领域的许多人仍对当前的实现感到沮丧。常见抱怨集中在不可预测性——研究人员报告触发机制不一致，并感觉是以关键字启发式而非具情境感知的判断来决定阻止。这会扰乱工作流程、延误调查，并降低本应协助安全开发与事件响应工具的实用性。

Anthropic 与其他开发者可以采取务实步骤以改善安全与效用之间的平衡。更好的情境意图分析有助于区分有害意图与正当研究。关于何者会触发防护的透明文档、示例安全提示以及清晰的上诉或反馈渠道，将减少专业用户的摩擦。持续与安全社区合作，包括第三方审计与红队演练，可找出边缘案例并为更细致的政策调整提供依据。

最终，开放访问与负责任部署之间的紧张关系并非 Anthropic 所独有。所有发布强大模型的组织都必须协商类似的权衡。虽然为防止滥用对公众用户造成一些暂时不便可能是必要的，但过于粗糙的限制风险会疏远对模型改进与安全采用至关重要的专家社区。前进的道路很可能是一个反复的过程：初期保守，随后以数据、用户反馈和跨部门合作为指引进行有针对性的放宽。

目前，Fable 可视为一个案例研究，说明向广大受众交付先进功能同时试图减轻现实世界伤害时所面临的挑战。其防护反映出优先考虑安全的谨慎立场，但社区的反应凸显需要更细致的控制，以允许合法的安全工作而不助长恶意者。随着 Anthropic 精炼其方法并通过验证计划扩展受核验的访问，研究人员希望防护措施会变得更智能、更透明且更可预测——在维持强健防护的同时减少不必要的阻碍。

关键见解表

方面	说明
防护行为	Fable 阻止被标记为与网络安全或生物学相关的提示，并在触发时回退到 Claude Opus 4.8。
对研究人员的影响	像代码审查或博客分析等无害任务可能被阻止，扰乱正常的安全工作流程。
理由	这些限制旨在降低诸如制作恶意软件与开发生物威胁等滥用风险。
验证计划	Anthropic 的安全验证计划对经批准的专业人士授予较少限制；OpenAI 则提供类似的 Trusted Access for Cyber。
建议改进	强化具情境感知的意图检测、提供更清晰的文档，并加强与安全专家的合作。

最後編輯時間：2026/6/10