GLM-5.1：当国产大模型学会刷榜，却还没学会干活

一位不想用但忍不住用了的开发者，谈GLM-5.1的真实体验。

2026年3月底，智谱AI发布了GLM-5.1。朋友圈和自媒体瞬间刷屏——"国产之光""超越Claude 94.6%""性价比之王"……各种标题党层出不穷，仿佛中国AI的天终于亮了。

说实话，我一直不想用。

不是偏见，是经验。从GLM-3到GLM-4，再到GLM-5，每一次发布会都是"史诗级进步"，每一次实际使用都是"史诗级失望"。我本以为自己已经免疫了。

但人嘛，总忍不住想看看这次是不是真的不一样。

先说句公道话

写这篇测评之前，我得先亮明一个立场：我是认可GLM的，至少在国产大模型里，它是我的"首选"。

作为一名重度依赖AI编程的开发者，我几乎试过了市面上所有主流大模型的编程能力。如果让我给编程能力打分（满分100，Claude和GPT在我心中是90分以上的存在），GLM在我这里能拿到60分——刚好及格。

这个分数什么概念？它是我心目中仅次于Claude和GPT的编程模型。 没错，在我个人使用体验中，GLM的编程能力甚至比Google Gemini还要好用一点。这在国产模型里已经是天花板级别的存在了。

所以当我批评GLM-5.1的时候，不是因为它"太差"，而是因为它"本可以更好"。

公平起见，GLM-5.1也有它的亮点。智谱官方宣称它在编程评测中拿到了45.3分，比上一代GLM-5的35.4分提升了28%。如果只看这个数字，它和Claude Opus 4.6的47.9分只差2.6分，达到了94.6%的水平。

另外，价格确实便宜。GLM Coding Plan最低月费3美元，正式价10美元起步。相比之下，Claude Max的费用确实高出一大截。

如果你只看PPT和评测分数，这确实是个"颠覆性"的产品。

但实际体验呢？

我从发布第一天就开始认真测试了GLM-5.1，主要场景是代码生成、Agent任务和长上下文处理。以下是我的真实感受。

1. 200K上下文？别人去年就1M了

GLM-5.1发布会上有一个被反复提及的"亮点"——支持200K的上下文窗口和128K的最大输出长度。

听起来很厉害对吧？

但让我们把时间线拉出来看看：Claude在2024年就支持了200K上下文，到2025年已经全面升级到1M。GPT系列同样在2025年就实现了百万级上下文窗口。

也就是说，GLM-5.1在2026年拿出来的，是竞争对手一两年前的水平。

这就像2026年发布一款新手机，宣传语是"支持5G网络"，而友商已经普及6G了。你不是在创新，你是在追赶，而且追得还不太紧。

更关键的是，GLM-5.1的200K上下文还只是"纸面参数"。实际测试中，当你输入超过80K的上下文时，模型就开始出现明显的注意力衰减——前面的指令被忽略，中间的逻辑被跳过，只对最后几万token的内容有响应。所谓的200K，更像是"能塞进去，但不一定能消化"。

相比之下，Claude和GPT在接近上下文上限时依然能保持相对稳定的理解能力，这才是真正的差距。

2. 响应慢得让人怀疑人生

GLM-5.1的推理速度只有44.3 tokens/秒，在同类产品中几乎是最慢的。写一段中等复杂度的代码，等它生成完的时间足够我去泡杯咖啡。而Claude Sonnet同样的任务，输出速度快了不止一倍。

速度慢不是致命问题，但当它慢的同时还频繁卡死、中断任务，这就很难接受了。

更离谱的是，在长上下文场景下，速度还会进一步下降。当你给它喂入大量代码让它分析时，响应延迟可以从几秒飙升到几十秒，甚至直接超时。这对于需要频繁交互的开发工作流来说，体验极差。

3. Agent模式形同虚设

GLM-5.1大肆宣传"Agentic Engineering"能力——自动规划、验证、修复代码，甚至生成压力测试脚本。听起来很美好对吧？

实际用起来，Agent模式下的问题层出不穷：

工具调用不稳定：Web Search功能会突然介入并干扰当前任务，导致代码生成中断。你让它写一个函数，它写着写着突然去搜了个网页，然后忘了自己在写什么。
多步任务翻车：让它完成一个需要5-6个步骤的任务，前三步勉强能跟上，到第四步开始"放飞自我"，要么跳过关键步骤，要么执行错误的操作。
长上下文中的幻觉：在Agent模式下处理较长对话时，模型会开始"发明"不存在的API、编造不存在的文件路径，甚至声称已经完成了实际上根本没做的操作。

作为一个每天深度使用AI Agent的开发者，我可以负责任地说：GLM-5.1的Agent能力，目前还处于"能Demo不能交付"的阶段。如果你拿它去做真正的生产任务，光调试它的错误输出所花的时间，可能比你自己手写还长。

4. 基准测试≠实际能力

这是最让我反感的一点。

智谱给出的评测数据都是自报的，目前没有任何独立第三方的验证结果。而所有收钱的自媒体都在用这些数据大做文章，"超越Claude 94.6%"被反复引用，仿佛这就是事实。

但任何一个真正深度使用过这些模型的人都知道，差距远不止5.4%。

评测分数和实际体验之间的鸿沟，主要来自几个方面：

第一，评测场景过于理想化。 标准化的编程评测题和真实的工程开发完全是两回事。就像驾考满分不代表你能开好山路，评测高分不等于模型能处理复杂的、模糊的、需要多轮迭代的生产级任务。

第二，自报分数缺乏可信度。 智谱没有公开评测的完整数据集和详细分数 breakdown。你告诉我总分45.3，但各子项表现如何？在哪些类型的任务上强、哪些弱？一概不知。

第三，对标模型的选择有技巧。 "达到Claude Opus 4.6的94.6%"这个表述本身就有误导性。为什么不和Claude Sonnet比？不和GPT-4o比？选择对标对象本身就是一种叙事策略。

这就像一个学生说自己数学考了94.6分，但试卷是自己出的，答案也是自己判的，而且只和班上第二名的同学比。你信吗？

5. 创意写作和长文本依然拉胯

除了编程，我测试了几个创意写作和长文本理解的任务。结果和GLM-5基本一个水平：

创意内容干瘪无味：让它写文案、写故事，输出就像是把一堆关键词拼接在一起，缺乏灵气、缺乏节奏感、缺乏真正"人味"的表达。
长对话中经常遗漏指令：聊了十几轮之后，它会开始"选择性遗忘"你之前给出的规则和约束。
逻辑连贯性差：长文本生成时经常前后矛盾，第三段说的话和第一段完全对不上。

6. 生态体验差距巨大

很多人只关注模型本身的能力，却忽略了一个更重要的维度：生态体验。

用Claude或GPT，你得到的是什么？

成熟稳定的API服务，99.9%的可用性
完善的文档和开发者工具
丰富的第三方集成和插件生态
持续迭代的产品体验，每一次更新都经过充分测试

用GLM-5.1，你得到的是什么？

经常性的限流和服务波动
文档不完善，很多功能需要自己摸索
第三方生态几乎为零
每次更新都像是"赶工交付"，Bug比Feature多

这不是模型能力的差距，这是工程成熟度的差距。而后者，往往比前者更难追。

顺带给国产大模型排个名

既然聊到这儿了，不如把我个人的编程能力评测排名也摆出来，供大家参考。

这是基于我大量实际使用后得出的主观排名，不涉及任何评测分数，纯粹是干活时的体感：

第一梯队（真正能用的）：

Claude — 编程领域的王者，代码质量、逻辑推理、长上下文理解全面领先
GPT — 综合能力最强，编程能力紧随Claude，生态最完善

第二梯队（勉强能用的）：

GLM — 国产最强，60分及格线，简单到中等复杂度的任务可以胜任
Gemini — Google出品，编程能力其实还不错，但在我的使用场景中略逊于GLM

第三梯队（勉强能看但不太敢用）：

Kimi — 月之暗面出品，偶尔能给出还行的方案，但稳定性差，经常需要反复调教
MiniMax — 速度快但错误率高，之前我专门写过一篇批判文章，"快但不可靠"是它的致命伤

第四梯队（基本不及格）：

Qwen（通义千问） — 阿里的模型，编程能力在国产里算中等，但离"能用"还有距离
豆包（字节跳动） — 对话还行，编程真的不行，生成的代码经常跑不起来
DeepSeek — 吹得最凶，实际编程体验最让人失望。开源做得好不代表产品好用

排不上号的：

小米、混元、百川、零一万物……这些模型在编程领域和上面这些完全不是一个量级，差距大到你甚至不需要认真对比。

所以你看，GLM虽然被我批评，但它好歹是国产里"唯一一个能过及格线的"。我批评它，是因为我对它期望最高；而那些连及格线都够不着的，我连批评的欲望都没有了。

算力是根本问题

有科技博主深度测试后发现，GLM-5.1的实际体验差，很大一部分原因是算力不足。模型本身的能力可能还不错，但受限于算力分配和速率上限，普通用户的体验被严重拖累。甚至有博主怀疑，GLM-5.1可能是"量化+蒸馏"的产物——为了降低推理成本，牺牲了模型的表现。

从GLM-4.7到GLM-5再到GLM-5.1，智谱每次发布新模型都会出现限流和服务波动。这说明什么？说明算力基础设施根本没跟上模型迭代的速度。

你造了一辆法拉利，但只修了一条乡间小路，这有什么意义？

国产大模型的真实差距

我不想泼冷水，但事实就是事实。

GPT和Claude之所以强大，不仅仅是因为模型本身，更因为它们背后有：

成熟的推理基础设施：分布式计算、负载均衡、弹性扩容，样样都是世界级水平
完善的多模态能力：图像、视频、音频，全面覆盖且持续领先
稳定的API服务：企业级可靠性，这是生产环境的基本要求
数百万用户的真实反馈：每一行代码、每一次交互都在帮助模型变得更好

国产大模型目前在做什么？刷评测分数、搞低价营销、请自媒体吹捧。

这些当然也需要，但如果你连最基本的"能用、好用、稳定"都做不到，刷再高的分数也只是自嗨。

写在最后

我不是不希望国产大模型变好。恰恰相反，我比任何人都希望有一天能用上真正好用的国产AI。毕竟，谁不想用更便宜、更懂中文的模型呢？

但"希望"不能代替"事实"。理性的批评，才是对国产大模型最大的帮助。

GLM-5.1相比上一代确实有进步，这是值得肯定的。但距离GPT、Claude这种真正能投入生产使用的模型，还有很远的距离。这个差距不是刷几个评测分数、发几篇通稿就能弥合的。

少刷榜，多干活。少吹牛，多打磨。少找自媒体带货，多听听真实用户的反馈。

这才是国产大模型该走的路。

作为一名长期使用各类AI模型的开发者，我的建议是：如果你需要一个真正靠谱的编程助手，Claude Sonnet/Opus依然是首选。如果你预算有限想试试国产模型，GLM-5.1可以玩玩，但别对它抱太高期望。

省下的钱，最后可能都要花在修复它生成的bug上。

毕竟，时间才是最贵的成本。

GLM-5.1：当国产大模型学会刷榜，却还没学会干活 ​

先说句公道话 ​

但实际体验呢？ ​

1. 200K上下文？别人去年就1M了 ​

2. 响应慢得让人怀疑人生 ​

3. Agent模式形同虚设 ​

4. 基准测试≠实际能力 ​

5. 创意写作和长文本依然拉胯 ​

6. 生态体验差距巨大 ​

顺带给国产大模型排个名 ​

算力是根本问题 ​

国产大模型的真实差距 ​

写在最后 ​