终于有了一个 Claude Opus 级别的开源模型,匿名期间已被老外吹爆了....
创始人
2026-02-12 18:22:06
0

大家好,我是小林。

最近刷到一个特别炸的事,OpenRouter上突然冒出来一个神秘模型,叫Pony Alpha,在海外开发者圈子里直接刷屏了。

看评论区都炸了,很多人说这编程能力猛得不行,甚至能跟 Claude Opus 4.6、GPT Codex 5.3 掰掰手腕。

然后评论区就开始猜了,有人说这是DeepSeek的新模型。

也有人说是智谱的GLM-5。

最夸张的是,有人说在Opencode上用,效果比Kimi 2.5还猛,甚至能跟Opus 4.6打个平手。

结果今早谜底揭晓了,智谱直接站出来认领:没错,这就是我们家的GLM-5

好家伙,这才一个多月时间啊,直接从GLM-4.7跳到5.0,版本号能升这么大,我猜肯定是有点东西的。

我专门去智谱官网看了一眼,他们说GLM-5的编程能力已经升级到「 系统架构师级别」了,不局限于只会写写简单的网页应用。

为什么这次能提升这么猛?核心原因就一个,他们跟上了硅谷最前沿的趋势:Agentic Coding

你还记得GPT-5.3-Codex和Claude Opus 4.6更新的时候吗?这些新模型都在用这个思路,就是通过大量Agent长时间运行来解决真正复杂的问题。

GLM-5 也顺势跟上这一波前沿的趋势,可以说是国内第一批跟上这波「大任务、系统工程」潮流的模型,怪不得前面有评论说:感觉和Opus 4.6差不多。

所以我也没犹豫,熬夜给 GLM-5 安排了个工程项目,我就想看看,这次到底是真的升级了,还是说就是换个数字忽悠人 。

为了验证这一点,我这次选了个偏后端 Infra 的场景:从 0 到 1 开发一个微服务网关。

注意啊,这可不是什么简单的CRUD项目,而是涉及架构级、高复杂度的底层核心技术。

为什么选这个呢? 很简单 只要是正经扛流量的系统,,基本都绕不开网关这一层,它就像是后端架构的地基,是所有请求进系统的第一道门。

先说个结论啊。

这个微服务网关,我让 GLM-5 帮我做,现在已经完全跑通了。能启动,能转发请求,四种负载均衡策略全都正常运行,压测出来的数据也相当不错。

但更夸张的来了,这整个项目,从一开始提需求到最后落地上线,几乎全是 GLM-5 自己搞定的

我真的没怎么写代码,就是提提要求,点点确认,然后跑跑测试,基本就这样。

你看下面这张图,这是GLM-5开发完微服务网关后给我整理的架构图。用到了Go、Gin、MySQL、Redis、Consul、Docker、gRPC这一整套后端组件,还实现了负载均衡、多协议代理、分布式限流这些高级特性。

更绝的是,我还让GLM-5把这个项目写成了一份能拿去面试用的简历模板。

我真的哭死,这也太能干了吧。GLM-5不仅能自己实现项目,还能画架构图、写简历,真就差替我去面试了

你想想看,要是现实中让一个后端工程师从零开始搭这么个东西,写需求文档、设计方案、拆解任务、写代码、联调、压测,这一套流程下来,少说也得好几天吧。

接下来我就按照完整的工程流程走一遍。需求文档怎么出来的,计划怎么落地的,任务怎么拆分的,执行器怎么跑起来的。

最后我再用性能测试把数据摆在你面前,让你看看 GLM-5 到底行不行。

Spec:把需求一次说清楚

在开发之前,首先我要做的就是理清楚需求,这个微服务网关,我到底要什么以及不要什么,这就是软件工程的出发点——需求与设计。

这里我就直接和GLM-5进行对话,通过一次次对话,把我做微服务网关的模糊想法,逐渐产出一份高质量的需求规范文档(Spec.md)。

下面是我用的初始提示词,我让 GLM-5使用AskUserQuestion工具反问我,把边界问清楚,帮我补齐信息、消除歧义。

Prompt:现在的任务是:从 0 到 1 设计并实现一个微服务网关(Go 语言),你是一名资深 Go 后端工程师和架构师,需要你通过不断向我提问,帮我把需求、边界和关键设计点问清楚,最终一起产出一份可落地的 spec.md。初步方向:这是一个部署在系统入口的网关服务,负责接收外部请求并转发到后端微服务。请使用AskUserQuestion工具开始提问 。

然后GLM-5问了我很多实现微服务网关需要考虑的问题,像一个优秀的架构师一样考虑非常全面,我只需要在他的引导下回答问题就行了。

给大家展示一下最终的需求汇总,其中关于存储GLM问我用什么,给我选项是PG+Redis,但我个人更熟悉MySQL,所以选择的是MySQL+Redis。

最终生成的 Spec 文档一般都会非常长,我这一份就有 500 多行,所以这里只给大家看一下大纲目录 。

你可以看到,从项目背景、目标、技术选型开始,一路写到系统架构、数据库设计、API 接口、核心模块,再到部署、配置、非功能性需求和开发规范,后面甚至还补了技术对比和算法实现的附录 。

GLM-5 帮我把一个模糊的想法变成了一份可执行的标准的需求规范文档。

我也试了一下让GLM-5帮我画架构图,效果真的挺让我惊喜的 。

它把网关拆成了两层,一层是控制面的Dashboard,专门负责配置和管理,另一层是数据面的Proxy,用来实打实地扛流量 这个设计思路我觉得特别清晰 。

然后外部依赖这块也梳理得很到位,MySQL存配置、Redis做计数限流、Consul管服务发现,每个组件的职责一目了然 。

整个架构图看下来,请求怎么进来的,配置怎么管理的,涉及到哪些组件,用了什么协议,还有核心特性都是什么,全都能一眼看明白 。

说实话这个结果让我挺满意的,比我自己画要省事多了 。

Plan&Task:从纸上谈兵到排兵布阵

好了,现在咱们手里的这份 spec.md 就像是一张精美的建筑蓝图,大方向已经定得死死的了。

但说实话啊,如果你直接把这图纸扔给Claude Code来执行,多半还是会出问题

为什么呢?因为这份设计稿现在还停留在宏观层面 它只告诉了咱们要盖一栋什么样的楼,但没说具体得买哪家的钢筋水泥,也没细说承重墙到底怎么排布。

最关键的是,施工的具体步骤是什么?是先挖地基还是先定窗户?这顺序要是搞反了,项目肯定得黄。

所以现在我会通过GLM-5将Spec.md翻译成两份能直接落地的工程文档:

  • 一份是技术方案 plan.md,它负责把所有的技术细节给敲实了

  • 另一份呢,就是 tasks.md,这可是给 AI 准备的原子化任务清单

我发给了 GLM-5 第二条Prompt,让它基于刚刚生成的 spec.md,设计具体的技术实现路径 。

Prompt:基于 spec.md,请编写详细的技术实现方案——plan.md,生成在项目的docs/目录

GLM-5 很快给出了一份详尽的 plan.md,我简单的看了一下,挺详细了,还帮我确定好了开发的里程碑,一眼就能看懂 Claude Code 后续要怎么走。

有了Plan.md,最后一步就是把工程拆成一个个具体的任务列表。

我们需要把整个大项目拆解成一个个 AI 能够独立完成、且上下文可控的小任务,生成最终的tasks.md。

Prompt:你是这个项目的技术负责人,请阅读:spec.md、plan.md。你的目标是: 将 plan.md 中的实现方案,拆解为 AI 可以直接执行的任务列表

拆解规则:

  • 每个任务只做一件事

  • 任务描述必须具体、可执行

  • 每个 tasks.md最多包含 10 个任务

  • 当任务超过 10 个时,请拆分为多个 tasks.md

  • 文件命名需基于任务编号,例如:

    • tasks-01.md

    • tasks-02.md

最终输出对应的 tasks.md文件内容,不要额外解释

说实话,一开始我还挺乐观的,心想任务列表嘛,顶多二三十个,跑完就收工。

结果我一按回车,任务一条接一条往外冒,数字蹭蹭往上涨:20、40、60……最后停在 100。

100个任务啊朋友们!要是让我自己来完成,估计得一周的开发时间才能搞定 说真的,那一瞬间我人都麻了。

不过转念一想,嘿,这不正好吗?

现在AI编程能力都这么强了,而且我手上还有GLM-5可以使用 我看官方说他能力强,正好测测它的真实水平,看看是骡子是马,拉出来遛遛 。

Executor:战斗一触即发

方案写好了,那么话不多说,我们让GLM-5开工 现在是真正开始落地时刻了。

跑到半夜,整整一百个任务,历经九九八十一难,GLM-5终于是过五关斩六将,一路西天取经,完成了我们这个大项目,真是逮着能干活的就往死里用。

我顺手 ping 了一下服务,结果直接就通了,连返工都没怎么用上 说实话,这一下还真有点意外 以前用模型做大一点的工程项目,经常是看着像完成了,实际一跑全是坑,但这次 GLM-5 明显不太一样 。

再看看比较关键的负载均衡部分,GLM-5 对于网关的理解还是非常深刻的,设计模式用得很对,接口抽象干净,四种策略可插拔。

我们可以跑个测试看看,网关的四种策略都是能成功运行,逻辑链路是通的

再来看加权轮询这里它还会去复用一些优秀的算法,比如这里用了 Nginx 的平滑加权轮询算法,不是像某些模型随便写个算法应付敷衍我

然后其实网关这种项目,它是天生应该具有高并发性,用来应付高并发场景的,而GLM-5用了一致性哈希 + 虚拟节点,并用RWMutex来保证并发安全,不得不说,我来写都不一定写得有它周到,点个赞。

我这里看到,GLM-5有个很不错的设计,它是观察者模式解耦了负载均衡的实例。

这意味着上层代码完全不需要知道用的是轮询还是一致性哈希,也不需要关心健康检查怎么驱动节点变更,全部封装好了。

后续要加第五种策略,只需新增一个 case,不动任何调用方代码,开闭原则遵守得很到位 。

最后,k8s 的配置其实也已经搞定了,我们只需要一键配置,就能顺利启动 整个项目的完成度基本上就像是把饭端到桌上了,效果简直是棒极了!

Debug:人生没有一帆风顺,代码也是

在开发过程中,其实我还遇到了一些bug但是GLM-5都能进行优秀的自我迭代调试与修复。

举个例子,我其实遇到了一个这样的bug:加权轮询退化为普通轮询,而且这个bug很隐蔽,稍不注意就发现不了。

刚好这是个验证GLM-5的调试与修复的好机会啊!我就丢给GLM-5去Debug和修复,期待 GLM-5 到底是会凭感觉瞎改,还是能像资深工程师一样把问题收敛。

可以看到它先是定位问题、发现问题,然后我让它去分析下出现这个问题的原因是什么。

看着GLM-5分析挺全的,能够自己找到出问题的代码,给出 Bug 定位以及影响,既然分析到这了,我们就让GLM-5去进行修复吧。

对于修复这件事,GLM-5也依旧很严谨,先把 Bug 修掉,再用单元测试复现和验证,把结果跑出来给你看 对我来说最省心的是,这一步基本不用我再手动去验证,它会把闭环自己做完,这种专业感确实值得点个赞。

Benchmark:牛马得承受住压力

好,既然是后端网关项目,最重要的肯定就是性能这块儿了对吧 咱们得实际跑一跑性能测试,看看这个网关到底是个玩具呢,还是说已经能真正落地使用的项目。

我准备做这么几个测试哈,一个是负载均衡性能测试,还有一个HTTP端到端性能测试。

先说负载均衡这块儿的测试结果吧,主要看吞吐和延迟分布 这个数据真的挺猛的啊,单线程的吞吐大概能跑到800万到900万ops每秒,平均延迟在110到222纳秒这个范围。

然后呢,我一上并发,8个goroutines跑起来,吞吐直接飙到1300万到1700万ops每秒,平均延迟居然还能压在63到104纳秒左右。

你看延迟分布也挺集中的,绝大多数请求都在100纳秒以内就能搞定,尾部延迟也控制得挺不错 从这能看出来GLM-5实现的这四种负载均衡策略,代码质量整体还是挺扎实的。

接下来咱们再看HTTP端到端的性能测试。

你看啊,这个网关的吞吐随着并发提升,那真是相当顺滑 并发从1涨到64的时候,吞吐从3489 req/s一路飙到20393 req/s,基本上就是你越压它越能跑的那种类型。

再看延迟这边儿表现也挺漂亮的 低并发的时候平均277微秒,高并发到64的时候P99也才9.05毫秒 这个尾延迟控制在反向代理里边已经算很有竞争力了 整体这个压测的表现就是能扛得住,跑得快,还稳。

然后我得跟你聊聊一个特别关键的东西,就是时延。

这玩意儿才是真正决定用户体感的核心指标啊 别的数据再好看,延迟要是拉胯了,用户该骂还得骂。

咱们来看具体数据吧 在并发8、样本5000的压测条件下,P50只有1.06毫秒 什么概念呢,就是说一半的请求,一毫秒出头就处理完了 你眨一下眼睛的功夫,它已经跑了好几百个来回了。

P95是1.74毫秒,也就是说95%的请求都能控制在两毫秒以内,这个数字已经相当能打了。

P99呢,2.37毫秒,百分之九十九的请求都稳稳当当的,没有飙车。

最狠的是P99.9,也才2.95毫秒,千分之 999 的请求都没破 3ms。

这组数据说明啥呢,说明它的时延分布极其集中,没有那种突然蹦出来一个几十毫秒的离谱毛刺 从P50到最大值,整个波动范围也就两毫秒出头,这个一致性很强。

在我这套测试条件下,已经接近不少团队能接受的落地水平, 后面直接用到公司项目里,我觉得都是完全可以的。

而且我还让 GLM-5 顺手做了一个完整的项目经历,相当于我直接多了一个能写进简历的项目。

结尾

写到这儿呢,结论已经很明显了,GLM-5这次升级是真的猛 。

它已经不是那种能写写代码的模型了,而是真正能把「系统级」的项目做出来,能落地在公司项目里,这俩概念差别可太大了。

在我的体验里,我用 GLM-5 来做架构设计,它能把微服务网关这种系统级需求拆得很清楚,Spec、Plan、Task 也能写得细、写得靠谱。

最后跑出来的性能指标也达到了我的预期,感觉就像旁边坐着一个资深架构师再加一个老练的后端开发,太能干了。

尤其是在使用GLM-5完成100个task这种长达数小时的开发任务,非常地稳定。

最终结果也和我在Spec定下的需求保持高度一致,这一点,有点像我在用 Claude Opus 4.6。

这个春节实在太热闹了,先是字节 Seedance 2.0 视频模型火出圈,现在智谱 GLM-5 编程模型也交出不错的答卷。

最后再多嘴一句,如果你想要个能从 0 到 1 搭建完整工程系统、或者是帮你完成后端开发工作的AI 模型。

相信 GLM-5 不会让你失望,至少是没让我失望的。

对了,因为现在过于火热,我还看到智谱对 Coding Plan 套餐已经开始限购了,之前听我推荐买 Coding Plan 套餐的同学,绝对是赚了的。

相关内容

智谱GLM-5正式开源!登...
智谱AI正式上线并开源全新旗舰大模型GLM-5,引领大模型从Vib...
2026-02-12 19:24:04
国产AI春晚炸场!GLM-...
昨天晚上,智谱GLM-5 开源发布,算是打响了2026年AI春晚的...
2026-02-12 18:49:10
AI安全风险藏不住了!瑞星...
如今,人工智能已深度融入日常工作与生活,在带来高效便利的同时,其作...
2026-02-12 18:23:49
GLM-5深夜登场,这是国...
深夜,GLM-5来了。 还是老样子,发布即开源。 而且前几天,O...
2026-02-12 18:23:35
华为诺亚方舟实验室官网新版...
IT之家 2 月 12 日消息,华为诺亚方舟实验室官方今日宣布新版...
2026-02-12 18:23:12

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...