中国 Z.AI 推出 GLM-5.2:高性能、采用 MIT 许可且未使用 Nvidia 硬件构建的模型
目录
您可能想知道
• 一个未使用 Nvidia 硬件训练的开源模型,能否在性能上匹敌顶级封闭模型?
• GLM-5.2 为开发者与组织带来哪些实际的权衡与部署路径?
主要议题
GLM-5.2 由北京的 Z.ai 于 6 月 16 日发布,是 GLM 系列的一个重要增量版本。该模型在重点工程基准上的核心性能,使其在选定评测项目中非常接近当前同类最佳的封闭模型,同时其许可与硬件来源也使它有别于许多同行。值得注意的是,GLM-5.2 完全在华为 Ascend 硬件上训练,而非 Nvidia GPU,且以 MIT 许可发布,未对区域访问设限。
在评估代理完成开放式技术项目能力的多小时严格工程基准上——涵盖系统优化、大规模代码构建和应用型机器学习研究等任务——GLM-5.2 展现了具有竞争力的结果。在以延长技术工作流的主导率计分的 FrontierSWE 基准上,GLM-5.2 得分为 74.4,对比 Claude Opus 4.8 的 75.1,并优于 GPT-5.5 的 72.6。在测量对真实世界 GitHub 问题进行自主解决能力的其他测试(SWE-bench Pro)中,GLM-5.2 记录到 62.1 的通过率,击败 GPT-5.5 的 58.6,并明显超越其前代 GLM-5.1 的 58.4。
这些结果使 GLM-5.2 在若干汇总的模型质量指数中成为领先的开源模型。开源基准套件与汇总指数显示 GLM-5.2 正接近先前由顶级封闭模型占据的类别,且某些社区基准集合将它与在某些市场已被限制的模型列为同一等级。
一项特别值得注意的技术规格 是 GLM-5.2 的一百万代币上下文窗口——相较于 GLM-5.1 的 20 万代币限制有大幅提升。此扩展改变了开发者构建大型代码重构、整个仓库导航与多文件代理工作流的方式:许多此前必要的分块策略变得不再需要,能够对跨大量代码或文档上下文的问题以单次调用完成工作流。
该模型架构为 7440 亿参数的稀疏专家(mixture-of-experts)设计。参数代表了塑造模型行为的内部学习值,而扩展的代币上下文则增加了模型能同时考虑的文本量。这些因素共同促进了更好的多步推理能力以及处理更长且互相连接任务的能力。
从经济角度来看,训练方法同样引人注目。业界估计 GLM-5.2 的总训练成本约为 2500 万美元,其中大部分费用与训练后步骤相关。如果此估算准确,这样的成本结构显示出相对于许多训练预算可能显著更高的同时代模型,其成本效率具有竞争力。使用非美国芯片进行训练也突显出硬件选择与地缘政治因素如何影响模型开发管线。
部署与可及性是务实的考量。Z.ai 在 Hugging Face 上以 MIT 许可公布 GLM-5.2 权重,社区版本包含将完整 1.51 TB 模型压缩到约 238 GB 的 2-bit GGUF 量化,同时保留约 ~82% 的原始精度。该量化形式大幅降低了存储与运行时需求,但在本地运行仍需高内存环境:大约 256 GB 的统一内存或等效的 RAM/VRAM 组合,除非使用稀疏专家卸载(mixture-of-experts offloading)。这意味着本地部署对于资源充足的实验室或高端工作站用户在技术上是可行的,但对一般消费级硬件仍然难以负担。
API 定价与产品定位反映出对开发者经济性的关注。Z.ai 公布的 API 费率具有竞争力:每百万输入代币 1.40 美元、每百万输出代币 4.40 美元,远低于某些封闭替代方案的公开价格。公司还提供订阅式代码方案与与流行代理环境的集成,旨在使 GLM-5.2 在多次生成工作流与迭代开发管线中实用,特别是那些重视输出多样性与长上下文处理的情况。
在动手测试中,GLM-5.2 生成了多样化的输出,并在受益于多样性与长上下文推理的任务上展现强大能力。例如,一个零样本实验要求模型产出一款结合打字机制与射击元素的游戏时,模型生成了大量场景、敌人行为与出现式 boss 机制。虽然生成的 UI 抛光落后于某些竞争者,但游戏状态的多样性与丰富性突出了该模型在多次生成与代理式使用案例中的优势。
尽管具有这些优势,与最先进的封闭模型相比,在一些最持久、最困难的任务上仍存在差距。在延长的基准测试(例如 SWE-Marathon)中,GLM-5.2 的表现明显落后于顶级封闭模型,强调在任务难度与持续时间上,前沿仍在开放与封闭产品之间分裂。
最后,MIT 许可与开放权重的组合影响采用动态。开放许可降低了研究、商业使用与实验的访问门槛,而没有区域访问限制意味着开发者与组织可以在更广泛的范围内使用该模型。这对竞争、产业动态与 AI 部门的投资模式具有实际影响。
关键洞见表
| 面向 | 说明 |
|---|---|
| 与同侪的性能比较 | GLM-5.2 在 FrontierSWE 得分 74.4,对比 Claude Opus 4.8 的 75.1 与 GPT-5.5 的 72.6,显示接近顶尖的表现。 |
| 硬件 | 完全在华为 Ascend 芯片上训练,训练流程中未使用 Nvidia 硬件。 |
| 模型大小与上下文 | 7440 亿参数的稀疏专家架构,具有一百万代币的上下文窗口,可支持长上下文工作流。 |
| 许可 | 以 MIT 许可发布,且无区域访问限制。 |
| 量化与本地运行 | 2-bit GGUF 量化可将大小从 1.51TB 减少到约 238GB,但仍建议本地运行时具备约 256GB 的统一内存。 |
| 成本与访问 | 估计训练成本约为 2500 万美元;API 定价具竞争力,每百万代币输入 1.40(美元)与输出 4.40(美元)。 |
| 最佳使用场景 | 多次生成、长仓库代码任务、代理式管线,以及重视输出多样性胜于单次精致输出的工作流。 |
之后…
展望未来,GLM-5.2 的发布强调了若干值得持续探索的技术与战略领域。首先,替代加速器生态(例如 Ascend 与其他非 Nvidia 芯片)的角色,将在多样化供应链与在 AI 开发中建立地缘政治韧性方面继续重要。针对这些加速器的软件栈、工具与优化内核的持续工程,将决定此类硬件能被采用的广度。
第二,非常长的上下文窗口与稀疏专家架构为协调多步、长远任务的系统开启了新可能。针对记忆与检索增强架构、有效的卸载以及更具成本效益的稀疏专家路由的研究,将对在大规模下使一百万代币上下文实用化至关重要。
第三,可及的开放许可结合社区驱动的量化工具,降低了实验与部署的门槛。进一步在稳健量化方法、设备端性能调优与内存高效运行时方面的工作,将扩大能在本地运行强大模型而不产生高昂成本的参与者范围。
最后,基准方法与现实世界评估指标仍需改进。社区努力创建具代表性、长周期与以安全为重点的评估,将对于有意义地比较模型并指导负责任采用至关重要。
总体而言,這些方向——多元化的硬件生态、可扩展的长上下文技术、改进的量化与运行时以及更好的基准——将塑造像 GLM-5.2 这样的模型如何影响研究前沿与实际开发者工作流。