为什么 Google 的 AI 在拼写上会出错

文章上線

为什么 Google 的 AI 在拼写上会出错 — 以及这表明了什么

前言

生成型 AI 已成为现代搜索与对话工具的基石，然而即使是最先进的系统也会犯令人意外的基本错误。本文审视近期 Google AI 驱动的搜索概览中出现的一波拼写与字符计数错误，旨在解释 为何这些系统在对人类而言微不足道的任务上会失手。通过探讨大型语言模型（LLM）如何编码语言并生成输出，我们旨在澄清持续出现拼写异常的技术原因、总结实际影响，并说明为何即便 AI 能力在扩展，这些缺陷仍然重要。目标并非嘲笑技术，而是提供平衡且易于理解的说明，让读者能够更清楚预期 AI 驱动工具的表现。

懒惰分块

Google 的 AI 有时会产生错误的字母计数与拼写错误，这是 LLM 如何表示文本的一个症状。这些模型将输入拆分为 tokens（标记），而不是以字母为单位，并且它们在这些标记上学习统计模式。因此，它们在生成流畅的散文或解决复杂任务方面可能表现出色，但在精确的字符级问题上仍然容易出错。这个问题已被注意到、难以修复，并凸显了应该验证 AI 输出而非不加批判地接受它们的重要性。

主体

在对其搜索产品的近期更新中，Google 扩大了生成型 AI 的角色，加入了旨在总结并澄清查询的简洁 AI 概览。这些概览旨在简化用户获取信息的方式，但偶尔会产生奇怪的结果——从简单单词的字母计数错误到知名字词被拼错。例如，一个 AI 生成的回答可能声称某个单词包含某个字母的数量与预期不同，或将熟悉的名字字母重新排列。此类输出引发了公众的戏谑与担忧。

要理解这些错误为何发生，有助于看看当代 LLM 处理语言的内部方式。大多数模型建立在 transformer 架构上，会将文本转换为一系列的标记（tokens）。标记是模型操作的基本单元；根据分词方案不同，它们可能是整个单词、常见子词、音节，甚至是单个字符。当给出提示时，模型会将每个标记转换为高维数值编码，然后通过对这些编码之间的统计关系建模来预测后续标记。

以标记为中心的方法在许多方面都很强大。它允许模型跨语境泛化、生成流畅且具语境感知的文本，并解决如摘要、翻译或代码生成等任务。但它也引入了一个盲点：模型并不会像人类那样固有地将文本视为一连串离散字符。它们没有一种明确的内部表示能直接对应到单词的每个字母。相反，它们依赖在标记上的学习模式。

计算特定字母出现次数或精确拼写一个单词需要精确的字符级推理。由于许多分词器会将常见字母序列合并为单一标记，模型可能不会把每个单独字符分开。即使标记很小，学到的编码也会优先考虑语境意义与下一个标记的预测，而非精确的字符忠实度。因此，需要精确正字法或字母计数的任务会暴露出弱点。研究人员长期以来常拿问 LLM「'strawberry' 有多少个 'r'？」这类问题来测试此类错误——这确实是个可靠的方法。

专家解释，这种行为并非简单的漏洞，而是架构权衡的结果。分词器被设计来在效率与表达力之间取得平衡：大量小型标记的词汇能提高粒度，但会增加计算成本与数据稀疏性；较大的标记词汇可降低复杂度，却牺牲字符级的精确性。即便能设计出一个与人类直觉对齐的完美分词器，模型仍可能为统计上的便利而形成内部的分块。这种模糊性使得单靠分词化就能完美解决拼写与字符计数准确性的可能性变得不太可能。

Google 与其他组织意识到这些限制，并持续在模型设计与安全层面上进行迭代。在某些情况下，公司会修补特定的问题行为——例如纠正一个错误返回的模板助手回复而非字典定义。但许多与拼写相关的问题仍具有韧性，因为它们源自模型架构与训练目标的基本面向，这些目标强调预测最可能的下一个标记，而非遵守确定性的字符规则。

重要的是，这一限制并不否定 LLM 的巨大实用性。这些系统能撰写连贯的文章、生成可用的代码片段，并帮助研究人员探索复杂问题。它们的价值常在于模式识别、综合与创造性生成，而非死板的机械精确性。尽管如此，明显的错误是有用的提醒：AI 系统会出错。它们可能生成听起来合理但实际上错误的输出，如果不经仔细审查，用户可能被误导。

从实际角度来看，用户与产品设计者应将 AI 输出视为有帮助但非万无一失。验证策略——交叉核对事实、对拼写敏感的任务采用字符级检查，或将需要精确度的任务交给专门工具——能减少接受错误信息的风险。对开发者而言，可能的缓解措施包括将基于标记的 LLM 与确定性的字符级模块结合，用于拼写、计数或格式验证等任务。另一种方法是通过微调或提示技术，促使模型采取更谨慎的分步推理，尽管这些方法并不能保证消除所有错误。

简而言之，Google AI 概览中观察到的拼写异常说明了现代 AI 的一个更广泛的事实：在许多领域表现出高层次能力并不保证在低层次、离散任务上也能无瑕执行。认识统计语言能力与精确字符操作之间的区别，有助于设定现实的期望并指导在日常情境中更好地使用 AI。随着研究进展，这些差距中的部分可能会缩小，但就目前而言，最安全的做法是欣赏 AI 的强项，同时对其弱点保持警惕。

关键洞见表

面向	描述
错误发生的原因	LLM 在标记与统计编码上运作，而非逐字表示，因此在精确的字符级任务上常会失败。
常见症状	错误的字母计数、拼写错误，以及对熟悉单词或名字的奇怪重排列。
为何难以修复	分词化的权衡以及模型倾向于为统计方便形成“分块”，使得完美的字符级准确性难以实现。
短期缓解措施	将 LLM 与确定性的字符级检查、微调或专门模块结合，用于拼写敏感的任务。
实际要点	将 AI 输出视为有用但会出错；在关键细节上进行验证，而非仅依赖 AI。

最後編輯時間：2026/5/28