大家好,我是小林。
最近刷到一个特别炸的事,OpenRouter上突然冒出来一个神秘模型,叫Pony Alpha,在海外开发者圈子里直接刷屏了。
看评论区都炸了,很多人说这编程能力猛得不行,甚至能跟 Claude Opus 4.6、GPT Codex 5.3 掰掰手腕。
然后评论区就开始猜了,有人说这是DeepSeek的新模型。
也有人说是智谱的GLM-5。
最夸张的是,有人说在Opencode上用,效果比Kimi 2.5还猛,甚至能跟Opus 4.6打个平手。
结果今早谜底揭晓了,智谱直接站出来认领:没错,这就是我们家的GLM-5。
好家伙,这才一个多月时间啊,直接从GLM-4.7跳到5.0,版本号能升这么大,我猜肯定是有点东西的。
我专门去智谱官网看了一眼,他们说GLM-5的编程能力已经升级到「 系统架构师级别」了,不局限于只会写写简单的网页应用。
为什么这次能提升这么猛?核心原因就一个,他们跟上了硅谷最前沿的趋势:Agentic Coding。
你还记得GPT-5.3-Codex和Claude Opus 4.6更新的时候吗?这些新模型都在用这个思路,就是通过大量Agent长时间运行来解决真正复杂的问题。
GLM-5 也顺势跟上这一波前沿的趋势,可以说是国内第一批跟上这波「大任务、系统工程」潮流的模型,怪不得前面有评论说:感觉和Opus 4.6差不多。
所以我也没犹豫,熬夜给 GLM-5 安排了个工程项目,我就想看看,这次到底是真的升级了,还是说就是换个数字忽悠人 。
为了验证这一点,我这次选了个偏后端 Infra 的场景:从 0 到 1 开发一个微服务网关。
注意啊,这可不是什么简单的CRUD项目,而是涉及架构级、高复杂度的底层核心技术。
为什么选这个呢? 很简单 只要是正经扛流量的系统,,基本都绕不开网关这一层,它就像是后端架构的地基,是所有请求进系统的第一道门。
先说个结论啊。
这个微服务网关,我让 GLM-5 帮我做,现在已经完全跑通了。能启动,能转发请求,四种负载均衡策略全都正常运行,压测出来的数据也相当不错。
但更夸张的来了,这整个项目,从一开始提需求到最后落地上线,几乎全是 GLM-5 自己搞定的。
我真的没怎么写代码,就是提提要求,点点确认,然后跑跑测试,基本就这样。
你看下面这张图,这是GLM-5开发完微服务网关后给我整理的架构图。用到了Go、Gin、MySQL、Redis、Consul、Docker、gRPC这一整套后端组件,还实现了负载均衡、多协议代理、分布式限流这些高级特性。
更绝的是,我还让GLM-5把这个项目写成了一份能拿去面试用的简历模板。
我真的哭死,这也太能干了吧。GLM-5不仅能自己实现项目,还能画架构图、写简历,真就差替我去面试了
。
你想想看,要是现实中让一个后端工程师从零开始搭这么个东西,写需求文档、设计方案、拆解任务、写代码、联调、压测,这一套流程下来,少说也得好几天吧。
接下来我就按照完整的工程流程走一遍。需求文档怎么出来的,计划怎么落地的,任务怎么拆分的,执行器怎么跑起来的。
最后我再用性能测试把数据摆在你面前,让你看看 GLM-5 到底行不行。
Spec:把需求一次说清楚
在开发之前,首先我要做的就是理清楚需求,这个微服务网关,我到底要什么以及不要什么,这就是软件工程的出发点——需求与设计。
这里我就直接和GLM-5进行对话,通过一次次对话,把我做微服务网关的模糊想法,逐渐产出一份高质量的需求规范文档(Spec.md)。
下面是我用的初始提示词,我让 GLM-5使用AskUserQuestion工具反问我,把边界问清楚,帮我补齐信息、消除歧义。
Prompt:现在的任务是:从 0 到 1 设计并实现一个微服务网关(Go 语言),你是一名资深 Go 后端工程师和架构师,需要你通过不断向我提问,帮我把需求、边界和关键设计点问清楚,最终一起产出一份可落地的 spec.md。初步方向:这是一个部署在系统入口的网关服务,负责接收外部请求并转发到后端微服务。请使用AskUserQuestion工具开始提问 。
然后GLM-5问了我很多实现微服务网关需要考虑的问题,像一个优秀的架构师一样考虑非常全面,我只需要在他的引导下回答问题就行了。
给大家展示一下最终的需求汇总,其中关于存储GLM问我用什么,给我选项是PG+Redis,但我个人更熟悉MySQL,所以选择的是MySQL+Redis。
最终生成的 Spec 文档一般都会非常长,我这一份就有 500 多行,所以这里只给大家看一下大纲目录 。
你可以看到,从项目背景、目标、技术选型开始,一路写到系统架构、数据库设计、API 接口、核心模块,再到部署、配置、非功能性需求和开发规范,后面甚至还补了技术对比和算法实现的附录 。
GLM-5 帮我把一个模糊的想法变成了一份可执行的标准的需求规范文档。
我也试了一下让GLM-5帮我画架构图,效果真的挺让我惊喜的 。
它把网关拆成了两层,一层是控制面的Dashboard,专门负责配置和管理,另一层是数据面的Proxy,用来实打实地扛流量 这个设计思路我觉得特别清晰 。
然后外部依赖这块也梳理得很到位,MySQL存配置、Redis做计数限流、Consul管服务发现,每个组件的职责一目了然 。
整个架构图看下来,请求怎么进来的,配置怎么管理的,涉及到哪些组件,用了什么协议,还有核心特性都是什么,全都能一眼看明白 。
说实话这个结果让我挺满意的,比我自己画要省事多了 。
Plan&Task:从纸上谈兵到排兵布阵
好了,现在咱们手里的这份 spec.md 就像是一张精美的建筑蓝图,大方向已经定得死死的了。
但说实话啊,如果你直接把这图纸扔给Claude Code来执行,多半还是会出问题
为什么呢?因为这份设计稿现在还停留在宏观层面 它只告诉了咱们要盖一栋什么样的楼,但没说具体得买哪家的钢筋水泥,也没细说承重墙到底怎么排布。
最关键的是,施工的具体步骤是什么?是先挖地基还是先定窗户?这顺序要是搞反了,项目肯定得黄。
所以现在我会通过GLM-5将Spec.md翻译成两份能直接落地的工程文档:
一份是技术方案 plan.md,它负责把所有的技术细节给敲实了
另一份呢,就是 tasks.md,这可是给 AI 准备的原子化任务清单
我发给了 GLM-5 第二条Prompt,让它基于刚刚生成的 spec.md,设计具体的技术实现路径 。
Prompt:基于 spec.md,请编写详细的技术实现方案——plan.md,生成在项目的docs/目录
GLM-5 很快给出了一份详尽的 plan.md,我简单的看了一下,挺详细了,还帮我确定好了开发的里程碑,一眼就能看懂 Claude Code 后续要怎么走。
有了Plan.md,最后一步就是把工程拆成一个个具体的任务列表。
我们需要把整个大项目拆解成一个个 AI 能够独立完成、且上下文可控的小任务,生成最终的tasks.md。
Prompt:你是这个项目的技术负责人,请阅读:spec.md、plan.md。你的目标是: 将 plan.md 中的实现方案,拆解为 AI 可以直接执行的任务列表
拆解规则:
每个任务只做一件事
任务描述必须具体、可执行
每个 tasks.md最多包含 10 个任务
当任务超过 10 个时,请拆分为多个 tasks.md
文件命名需基于任务编号,例如:
tasks-01.md
tasks-02.md
最终输出对应的 tasks.md文件内容,不要额外解释
说实话,一开始我还挺乐观的,心想任务列表嘛,顶多二三十个,跑完就收工。
结果我一按回车,任务一条接一条往外冒,数字蹭蹭往上涨:20、40、60……最后停在 100。
100个任务啊朋友们!要是让我自己来完成,估计得一周的开发时间才能搞定 说真的,那一瞬间我人都麻了。
不过转念一想,嘿,这不正好吗?
现在AI编程能力都这么强了,而且我手上还有GLM-5可以使用 我看官方说他能力强,正好测测它的真实水平,看看是骡子是马,拉出来遛遛 。
Executor:战斗一触即发
方案写好了,那么话不多说,我们让GLM-5开工 现在是真正开始落地时刻了。
跑到半夜,整整一百个任务,历经九九八十一难,GLM-5终于是过五关斩六将,一路西天取经,完成了我们这个大项目,真是逮着能干活的就往死里用。
我顺手 ping 了一下服务,结果直接就通了,连返工都没怎么用上 说实话,这一下还真有点意外 以前用模型做大一点的工程项目,经常是看着像完成了,实际一跑全是坑,但这次 GLM-5 明显不太一样 。
再看看比较关键的负载均衡部分,GLM-5 对于网关的理解还是非常深刻的,设计模式用得很对,接口抽象干净,四种策略可插拔。
我们可以跑个测试看看,网关的四种策略都是能成功运行,逻辑链路是通的
再来看加权轮询这里它还会去复用一些优秀的算法,比如这里用了 Nginx 的平滑加权轮询算法,不是像某些模型随便写个算法应付敷衍我
然后其实网关这种项目,它是天生应该具有高并发性,用来应付高并发场景的,而GLM-5用了一致性哈希 + 虚拟节点,并用RWMutex来保证并发安全,不得不说,我来写都不一定写得有它周到,点个赞。
我这里看到,GLM-5有个很不错的设计,它是观察者模式解耦了负载均衡的实例。
这意味着上层代码完全不需要知道用的是轮询还是一致性哈希,也不需要关心健康检查怎么驱动节点变更,全部封装好了。
后续要加第五种策略,只需新增一个 case,不动任何调用方代码,开闭原则遵守得很到位 。
最后,k8s 的配置其实也已经搞定了,我们只需要一键配置,就能顺利启动 整个项目的完成度基本上就像是把饭端到桌上了,效果简直是棒极了!
Debug:人生没有一帆风顺,代码也是
在开发过程中,其实我还遇到了一些bug,但是GLM-5都能进行优秀的自我迭代调试与修复。
举个例子,我其实遇到了一个这样的bug:加权轮询退化为普通轮询,而且这个bug很隐蔽,稍不注意就发现不了。
刚好这是个验证GLM-5的调试与修复的好机会啊!我就丢给GLM-5去Debug和修复,期待 GLM-5 到底是会凭感觉瞎改,还是能像资深工程师一样把问题收敛。
可以看到它先是定位问题、发现问题,然后我让它去分析下出现这个问题的原因是什么。
看着GLM-5分析挺全的,能够自己找到出问题的代码,给出 Bug 定位以及影响,既然分析到这了,我们就让GLM-5去进行修复吧。
对于修复这件事,GLM-5也依旧很严谨,先把 Bug 修掉,再用单元测试复现和验证,把结果跑出来给你看 对我来说最省心的是,这一步基本不用我再手动去验证,它会把闭环自己做完,这种专业感确实值得点个赞。
Benchmark:牛马得承受住压力
好,既然是后端网关项目,最重要的肯定就是性能这块儿了对吧 咱们得实际跑一跑性能测试,看看这个网关到底是个玩具呢,还是说已经能真正落地使用的项目。
我准备做这么几个测试哈,一个是负载均衡性能测试,还有一个HTTP端到端性能测试。
先说负载均衡这块儿的测试结果吧,主要看吞吐和延迟分布 这个数据真的挺猛的啊,单线程的吞吐大概能跑到800万到900万ops每秒,平均延迟在110到222纳秒这个范围。
然后呢,我一上并发,8个goroutines跑起来,吞吐直接飙到1300万到1700万ops每秒,平均延迟居然还能压在63到104纳秒左右。
你看延迟分布也挺集中的,绝大多数请求都在100纳秒以内就能搞定,尾部延迟也控制得挺不错 从这能看出来GLM-5实现的这四种负载均衡策略,代码质量整体还是挺扎实的。
接下来咱们再看HTTP端到端的性能测试。
你看啊,这个网关的吞吐随着并发提升,那真是相当顺滑 并发从1涨到64的时候,吞吐从3489 req/s一路飙到20393 req/s,基本上就是你越压它越能跑的那种类型。
再看延迟这边儿表现也挺漂亮的 低并发的时候平均277微秒,高并发到64的时候P99也才9.05毫秒 这个尾延迟控制在反向代理里边已经算很有竞争力了 整体这个压测的表现就是能扛得住,跑得快,还稳。
然后我得跟你聊聊一个特别关键的东西,就是时延。
这玩意儿才是真正决定用户体感的核心指标啊 别的数据再好看,延迟要是拉胯了,用户该骂还得骂。
咱们来看具体数据吧 在并发8、样本5000的压测条件下,P50只有1.06毫秒 什么概念呢,就是说一半的请求,一毫秒出头就处理完了 你眨一下眼睛的功夫,它已经跑了好几百个来回了。
P95是1.74毫秒,也就是说95%的请求都能控制在两毫秒以内,这个数字已经相当能打了。
P99呢,2.37毫秒,百分之九十九的请求都稳稳当当的,没有飙车。
最狠的是P99.9,也才2.95毫秒,千分之 999 的请求都没破 3ms。
这组数据说明啥呢,说明它的时延分布极其集中,没有那种突然蹦出来一个几十毫秒的离谱毛刺 从P50到最大值,整个波动范围也就两毫秒出头,这个一致性很强。
在我这套测试条件下,已经接近不少团队能接受的落地水平, 后面直接用到公司项目里,我觉得都是完全可以的。
而且我还让 GLM-5 顺手做了一个完整的项目经历,相当于我直接多了一个能写进简历的项目。
结尾
写到这儿呢,结论已经很明显了,GLM-5这次升级是真的猛 。
它已经不是那种能写写代码的模型了,而是真正能把「系统级」的项目做出来,能落地在公司项目里,这俩概念差别可太大了。
在我的体验里,我用 GLM-5 来做架构设计,它能把微服务网关这种系统级需求拆得很清楚,Spec、Plan、Task 也能写得细、写得靠谱。
最后跑出来的性能指标也达到了我的预期,感觉就像旁边坐着一个资深架构师再加一个老练的后端开发,太能干了。
尤其是在使用GLM-5完成100个task这种长达数小时的开发任务,非常地稳定。
最终结果也和我在Spec定下的需求保持高度一致,这一点,有点像我在用 Claude Opus 4.6。
这个春节实在太热闹了,先是字节 Seedance 2.0 视频模型火出圈,现在智谱 GLM-5 编程模型也交出不错的答卷。
最后再多嘴一句,如果你想要个能从 0 到 1 搭建完整工程系统、或者是帮你完成后端开发工作的AI 模型。
相信 GLM-5 不会让你失望,至少是没让我失望的。
对了,因为现在过于火热,我还看到智谱对 Coding Plan 套餐已经开始限购了,之前听我推荐买 Coding Plan 套餐的同学,绝对是赚了的。