终于有了一个 Claude Opus 级别的开源模型，匿名期间已被老外吹爆了...._linux资讯

终于有了一个 Claude Opus 级别的开源模型，匿名期间已被老外吹爆了....

创始人

2026-02-12 18:22:06

0次

大家好，我是小林。

最近刷到一个特别炸的事，OpenRouter上突然冒出来一个神秘模型，叫Pony Alpha，在海外开发者圈子里直接刷屏了。

看评论区都炸了，很多人说这编程能力猛得不行，甚至能跟 Claude Opus 4.6、GPT Codex 5.3 掰掰手腕。

然后评论区就开始猜了，有人说这是DeepSeek的新模型。

也有人说是智谱的GLM-5。

最夸张的是，有人说在Opencode上用，效果比Kimi 2.5还猛，甚至能跟Opus 4.6打个平手。

结果今早谜底揭晓了，智谱直接站出来认领：没错，这就是我们家的GLM-5。

好家伙，这才一个多月时间啊，直接从GLM-4.7跳到5.0，版本号能升这么大，我猜肯定是有点东西的。

我专门去智谱官网看了一眼，他们说GLM-5的编程能力已经升级到「系统架构师级别」了，不局限于只会写写简单的网页应用。

为什么这次能提升这么猛？核心原因就一个，他们跟上了硅谷最前沿的趋势：Agentic Coding。

你还记得GPT-5.3-Codex和Claude Opus 4.6更新的时候吗？这些新模型都在用这个思路，就是通过大量Agent长时间运行来解决真正复杂的问题。

GLM-5 也顺势跟上这一波前沿的趋势，可以说是国内第一批跟上这波「大任务、系统工程」潮流的模型，怪不得前面有评论说：感觉和Opus 4.6差不多。

所以我也没犹豫，熬夜给 GLM-5 安排了个工程项目，我就想看看，这次到底是真的升级了，还是说就是换个数字忽悠人。

为了验证这一点，我这次选了个偏后端 Infra 的场景：从 0 到 1 开发一个微服务网关。

注意啊，这可不是什么简单的CRUD项目，而是涉及架构级、高复杂度的底层核心技术。

为什么选这个呢? 很简单只要是正经扛流量的系统,，基本都绕不开网关这一层，它就像是后端架构的地基，是所有请求进系统的第一道门。

先说个结论啊。

这个微服务网关，我让 GLM-5 帮我做，现在已经完全跑通了。能启动，能转发请求，四种负载均衡策略全都正常运行，压测出来的数据也相当不错。

但更夸张的来了，这整个项目，从一开始提需求到最后落地上线，几乎全是 GLM-5 自己搞定的。

我真的没怎么写代码，就是提提要求，点点确认，然后跑跑测试，基本就这样。

你看下面这张图，这是GLM-5开发完微服务网关后给我整理的架构图。用到了Go、Gin、MySQL、Redis、Consul、Docker、gRPC这一整套后端组件，还实现了负载均衡、多协议代理、分布式限流这些高级特性。

更绝的是，我还让GLM-5把这个项目写成了一份能拿去面试用的简历模板。

我真的哭死，这也太能干了吧。GLM-5不仅能自己实现项目，还能画架构图、写简历，真就差替我去面试了

。

你想想看，要是现实中让一个后端工程师从零开始搭这么个东西，写需求文档、设计方案、拆解任务、写代码、联调、压测，这一套流程下来，少说也得好几天吧。

接下来我就按照完整的工程流程走一遍。需求文档怎么出来的，计划怎么落地的，任务怎么拆分的，执行器怎么跑起来的。

最后我再用性能测试把数据摆在你面前，让你看看 GLM-5 到底行不行。

Spec：把需求一次说清楚

在开发之前，首先我要做的就是理清楚需求，这个微服务网关，我到底要什么以及不要什么，这就是软件工程的出发点——需求与设计。

这里我就直接和GLM-5进行对话，通过一次次对话，把我做微服务网关的模糊想法，逐渐产出一份高质量的需求规范文档(Spec.md)。

下面是我用的初始提示词，我让 GLM-5使用AskUserQuestion工具反问我，把边界问清楚，帮我补齐信息、消除歧义。

Prompt：现在的任务是：从 0 到 1 设计并实现一个微服务网关（Go 语言），你是一名资深 Go 后端工程师和架构师，需要你通过不断向我提问，帮我把需求、边界和关键设计点问清楚，最终一起产出一份可落地的 spec.md。初步方向：这是一个部署在系统入口的网关服务，负责接收外部请求并转发到后端微服务。请使用AskUserQuestion工具开始提问。

然后GLM-5问了我很多实现微服务网关需要考虑的问题，像一个优秀的架构师一样考虑非常全面，我只需要在他的引导下回答问题就行了。

给大家展示一下最终的需求汇总，其中关于存储GLM问我用什么，给我选项是PG+Redis，但我个人更熟悉MySQL，所以选择的是MySQL+Redis。

最终生成的 Spec 文档一般都会非常长，我这一份就有 500 多行，所以这里只给大家看一下大纲目录。

你可以看到，从项目背景、目标、技术选型开始，一路写到系统架构、数据库设计、API 接口、核心模块，再到部署、配置、非功能性需求和开发规范，后面甚至还补了技术对比和算法实现的附录。

GLM-5 帮我把一个模糊的想法变成了一份可执行的标准的需求规范文档。

我也试了一下让GLM-5帮我画架构图，效果真的挺让我惊喜的。

它把网关拆成了两层，一层是控制面的Dashboard，专门负责配置和管理，另一层是数据面的Proxy，用来实打实地扛流量这个设计思路我觉得特别清晰。

然后外部依赖这块也梳理得很到位，MySQL存配置、Redis做计数限流、Consul管服务发现，每个组件的职责一目了然。

整个架构图看下来，请求怎么进来的，配置怎么管理的，涉及到哪些组件，用了什么协议，还有核心特性都是什么，全都能一眼看明白。

说实话这个结果让我挺满意的，比我自己画要省事多了。

Plan&Task：从纸上谈兵到排兵布阵

好了，现在咱们手里的这份 spec.md 就像是一张精美的建筑蓝图，大方向已经定得死死的了。

但说实话啊，如果你直接把这图纸扔给Claude Code来执行，多半还是会出问题

为什么呢？因为这份设计稿现在还停留在宏观层面它只告诉了咱们要盖一栋什么样的楼，但没说具体得买哪家的钢筋水泥，也没细说承重墙到底怎么排布。

最关键的是，施工的具体步骤是什么？是先挖地基还是先定窗户？这顺序要是搞反了，项目肯定得黄。

所以现在我会通过GLM-5将Spec.md翻译成两份能直接落地的工程文档：

一份是技术方案 plan.md，它负责把所有的技术细节给敲实了
另一份呢，就是 tasks.md，这可是给 AI 准备的原子化任务清单

我发给了 GLM-5 第二条Prompt，让它基于刚刚生成的 spec.md，设计具体的技术实现路径。

Prompt：基于 spec.md，请编写详细的技术实现方案——plan.md，生成在项目的docs/目录

GLM-5 很快给出了一份详尽的 plan.md，我简单的看了一下，挺详细了，还帮我确定好了开发的里程碑，一眼就能看懂 Claude Code 后续要怎么走。

有了Plan.md，最后一步就是把工程拆成一个个具体的任务列表。

我们需要把整个大项目拆解成一个个 AI 能够独立完成、且上下文可控的小任务，生成最终的tasks.md。

Prompt：你是这个项目的技术负责人，请阅读：spec.md、plan.md。你的目标是：将 plan.md 中的实现方案，拆解为 AI 可以直接执行的任务列表

拆解规则：

每个任务只做一件事

任务描述必须具体、可执行

每个 tasks.md最多包含 10 个任务

当任务超过 10 个时，请拆分为多个 tasks.md

文件命名需基于任务编号，例如：

tasks-01.md

tasks-02.md

最终输出对应的 tasks.md文件内容，不要额外解释

说实话，一开始我还挺乐观的，心想任务列表嘛，顶多二三十个，跑完就收工。

结果我一按回车，任务一条接一条往外冒，数字蹭蹭往上涨：20、40、60……最后停在 100。

100个任务啊朋友们！要是让我自己来完成，估计得一周的开发时间才能搞定说真的，那一瞬间我人都麻了。

不过转念一想，嘿，这不正好吗？

现在AI编程能力都这么强了，而且我手上还有GLM-5可以使用我看官方说他能力强，正好测测它的真实水平，看看是骡子是马，拉出来遛遛。

Executor：战斗一触即发

方案写好了，那么话不多说，我们让GLM-5开工现在是真正开始落地时刻了。

跑到半夜，整整一百个任务，历经九九八十一难，GLM-5终于是过五关斩六将，一路西天取经，完成了我们这个大项目，真是逮着能干活的就往死里用。

我顺手 ping 了一下服务，结果直接就通了，连返工都没怎么用上说实话，这一下还真有点意外以前用模型做大一点的工程项目，经常是看着像完成了，实际一跑全是坑，但这次 GLM-5 明显不太一样。

再看看比较关键的负载均衡部分，GLM-5 对于网关的理解还是非常深刻的，设计模式用得很对，接口抽象干净，四种策略可插拔。

我们可以跑个测试看看，网关的四种策略都是能成功运行，逻辑链路是通的

再来看加权轮询这里它还会去复用一些优秀的算法，比如这里用了 Nginx 的平滑加权轮询算法，不是像某些模型随便写个算法应付敷衍我

然后其实网关这种项目，它是天生应该具有高并发性，用来应付高并发场景的，而GLM-5用了一致性哈希 + 虚拟节点，并用RWMutex来保证并发安全，不得不说，我来写都不一定写得有它周到，点个赞。

我这里看到，GLM-5有个很不错的设计，它是观察者模式解耦了负载均衡的实例。

这意味着上层代码完全不需要知道用的是轮询还是一致性哈希，也不需要关心健康检查怎么驱动节点变更，全部封装好了。

后续要加第五种策略，只需新增一个 case，不动任何调用方代码，开闭原则遵守得很到位。

最后，k8s 的配置其实也已经搞定了，我们只需要一键配置，就能顺利启动整个项目的完成度基本上就像是把饭端到桌上了，效果简直是棒极了！

Debug：人生没有一帆风顺，代码也是

在开发过程中，其实我还遇到了一些bug，但是GLM-5都能进行优秀的自我迭代调试与修复。

举个例子，我其实遇到了一个这样的bug：加权轮询退化为普通轮询，而且这个bug很隐蔽，稍不注意就发现不了。

刚好这是个验证GLM-5的调试与修复的好机会啊！我就丢给GLM-5去Debug和修复，期待 GLM-5 到底是会凭感觉瞎改，还是能像资深工程师一样把问题收敛。

可以看到它先是定位问题、发现问题，然后我让它去分析下出现这个问题的原因是什么。

看着GLM-5分析挺全的，能够自己找到出问题的代码，给出 Bug 定位以及影响，既然分析到这了，我们就让GLM-5去进行修复吧。

对于修复这件事，GLM-5也依旧很严谨，先把 Bug 修掉，再用单元测试复现和验证，把结果跑出来给你看对我来说最省心的是，这一步基本不用我再手动去验证，它会把闭环自己做完，这种专业感确实值得点个赞。

Benchmark：牛马得承受住压力

好，既然是后端网关项目，最重要的肯定就是性能这块儿了对吧咱们得实际跑一跑性能测试，看看这个网关到底是个玩具呢，还是说已经能真正落地使用的项目。

我准备做这么几个测试哈，一个是负载均衡性能测试，还有一个HTTP端到端性能测试。

先说负载均衡这块儿的测试结果吧，主要看吞吐和延迟分布这个数据真的挺猛的啊，单线程的吞吐大概能跑到800万到900万ops每秒，平均延迟在110到222纳秒这个范围。

然后呢，我一上并发，8个goroutines跑起来，吞吐直接飙到1300万到1700万ops每秒，平均延迟居然还能压在63到104纳秒左右。

你看延迟分布也挺集中的，绝大多数请求都在100纳秒以内就能搞定，尾部延迟也控制得挺不错从这能看出来GLM-5实现的这四种负载均衡策略，代码质量整体还是挺扎实的。

接下来咱们再看HTTP端到端的性能测试。

你看啊,这个网关的吞吐随着并发提升，那真是相当顺滑并发从1涨到64的时候，吞吐从3489 req/s一路飙到20393 req/s，基本上就是你越压它越能跑的那种类型。

再看延迟这边儿表现也挺漂亮的低并发的时候平均277微秒，高并发到64的时候P99也才9.05毫秒这个尾延迟控制在反向代理里边已经算很有竞争力了整体这个压测的表现就是能扛得住，跑得快，还稳。

然后我得跟你聊聊一个特别关键的东西，就是时延。

这玩意儿才是真正决定用户体感的核心指标啊别的数据再好看，延迟要是拉胯了，用户该骂还得骂。

咱们来看具体数据吧在并发8、样本5000的压测条件下，P50只有1.06毫秒什么概念呢，就是说一半的请求，一毫秒出头就处理完了你眨一下眼睛的功夫，它已经跑了好几百个来回了。

P95是1.74毫秒，也就是说95%的请求都能控制在两毫秒以内，这个数字已经相当能打了。

P99呢，2.37毫秒，百分之九十九的请求都稳稳当当的，没有飙车。

最狠的是P99.9，也才2.95毫秒，千分之 999 的请求都没破 3ms。

这组数据说明啥呢，说明它的时延分布极其集中，没有那种突然蹦出来一个几十毫秒的离谱毛刺从P50到最大值，整个波动范围也就两毫秒出头，这个一致性很强。

在我这套测试条件下，已经接近不少团队能接受的落地水平，后面直接用到公司项目里，我觉得都是完全可以的。

而且我还让 GLM-5 顺手做了一个完整的项目经历，相当于我直接多了一个能写进简历的项目。

结尾

写到这儿呢，结论已经很明显了，GLM-5这次升级是真的猛。

它已经不是那种能写写代码的模型了，而是真正能把「系统级」的项目做出来，能落地在公司项目里，这俩概念差别可太大了。

在我的体验里，我用 GLM-5 来做架构设计，它能把微服务网关这种系统级需求拆得很清楚，Spec、Plan、Task 也能写得细、写得靠谱。

最后跑出来的性能指标也达到了我的预期，感觉就像旁边坐着一个资深架构师再加一个老练的后端开发，太能干了。

尤其是在使用GLM-5完成100个task这种长达数小时的开发任务，非常地稳定。

最终结果也和我在Spec定下的需求保持高度一致，这一点，有点像我在用 Claude Opus 4.6。

这个春节实在太热闹了，先是字节 Seedance 2.0 视频模型火出圈，现在智谱 GLM-5 编程模型也交出不错的答卷。

最后再多嘴一句，如果你想要个能从 0 到 1 搭建完整工程系统、或者是帮你完成后端开发工作的AI 模型。

相信 GLM-5 不会让你失望，至少是没让我失望的。

对了，因为现在过于火热，我还看到智谱对 Coding Plan 套餐已经开始限购了，之前听我推荐买 Coding Plan 套餐的同学，绝对是赚了的。

服务网需求匿名模型项目 Claude Opus 智谱系统 Spec md 后端网关

上一篇：屠榜全球30款模型！小米突然开源机器人大模型

下一篇：GLM-5深夜登场，这是国产开源模型首次逼平Claude Opus 4.5。

终于有了一个 Claude Opus 级别的开源模型，匿名期间已被老外吹爆了....

相关内容

热门资讯