GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。
创始人
2026-02-12 18:23:35
0

深夜,GLM-5来了。

还是老样子,发布即开源。

而且前几天,OpenRouter平台不是有一个Pony Alpha的匿名模型很火吗。

大家一度在猜是DeepSeek V4还是GLM-5,结果今天基本答案也揭晓了。

这大马,基本就是明示了。

到了今天,2026年的主旋律我觉得真的就已经就定下了,无论是国内还是海外。

Coding与视频齐飞,人类共AI一色。

这应该就是2026年AI领域最核心的两个主航道了,在这两之上,其实就是Agent。

这几天真的感觉过年一样,太热闹了,上周GPT-5.3 codex和Claude Opus 4.6中门对狙,后脚Seedance 2.0席卷全球,而现在,战场又拉回了Coding这边。

GLM-5,作为一个全新的大版本号,我想说,升级幅度还是很大的,真的可以比肩Claude Opus 4.5,我不开玩笑。

我其实已经提前三天拿到了GLM-5的API,这几天在我用Codex开发的时候,也把GLM-5同步接入到了Claude code里同步开发进行对比。

虽然作为智谱一直以来的拥簇,很想吹一下GLM-5跟Seedance 2.0一样全球第一,但是我觉得还是实事求是。

在我这几天的使用过程中,我个人体感是,GLM-5跟GPT-5.3-codex这种变态肯定还是有一些距离(后面有case会展示),但是在真正产品的开发和解决BUG的能力上,我觉得是能摸一下GPT-5.2-codex和Claude Opus 4.5了。

不要觉得这好像是一件很容易的事,Coding国内落后的其实一直都比较远,能追上Opus 4.5的能力,其实已经非常非常非常牛逼了。

前几天,在GPT-5.3-codex和Opus 4.6中门对狙的文章里,我在评论区里评论说,要是DeepSeek能赶上Opus 4.5,我高低得给它磕两个。

我是没想到,我现在可能得给智谱磕两个了。

非常坦诚的讲,在我日常开发过程中,我可能还是会选择GPT-5.3-codex + codex的组合,但是,我也深刻的清楚,并不是所有人,都有条件去买ChatGPT的会员的。

那如果你用不了GPT-5.3-codex的话,那我无比真诚的建议你,不用犹豫,就用GLM-5就行,这就是国内,你现在能用上的,最好、最棒、性价比最高的大模型。

Claude Code + GLM-5,是你无需魔法,国内可用,最低门槛体验AI Coding魅力的组合。

先老规矩,看下跑分和性能。

首先,GLM-5从355B(32B激活)扩展到744B参数(40B激活),参数量大了一倍,智能提升确实挺多,而且成本没有加特别多。

跑分上,目前在Artificial Analysis上仅次于那两个大爹,开源第1。

然后整体能力上。

相较于GLM-4.7,GLM-5全线能力基本都有了大幅提升,而且逼近Opus 4.5。

有一个比较有特点的,就是BrowseComp基准,这个我之前也说过,测的是Agent在网上搜索信息的能力,GLM-5得分75.9,直接超第二名普通的GPT-5.2有10个点,这个已经非常强了。

而另外两个最顶级的模型没放在里面,一个是GPT-5.2 Pro得分是77.9,Opus 4.6得分是84,GLM-5其实已经逼近最一线的水平了,能跟GPT-5.2 Pro打个平手,这事本身就挺强的了。

然后其他的,比如现实场景下改仓库代码的测试机SWE-bench,终端环境中agent能力的基准Terminal-Bench 2.0,agent工具使用的τ²-Bench,还有测试模型调用MCP能力的MCP-Atlas基准上,基本比Opus都只差那么临门一脚了。

说实话,一个国产模型,还开源出去,能到这个水平,已经非常非常让人自豪了。

同时在我看好的系统工程能力、长任务能力,在跑分上也能得到印证。

比如下面图上的Long-horizon基准,也就是长链条复杂任务,就能充分体现模型自主进行Agent长程多步规划和执行的能力。

这个跑分看下来就很清晰了,也和我实测下来的感受一致,在真正需要做大开发的时候,它的长程任务上,确实是对标Opus 4.5的存在。

GLM-5的上下文窗口和GLM-4.7一样,目前还是200k的上下文窗口,输出是128K。

不过GLM-5有一个非常离谱的一点,就是这玩意我试下来,非常的省token,就是干活的感觉,非常精准,跟GPT-5.3-codex有的一拼,这点有多重要用过Opus 4.6的都懂,那上下文和消耗量,简直了。

然后就是价格上,一个是API价格,真的,国产模型,这价格便宜的让人心疼。

Opus 4.5和4.6,都是$5/$25每百万token(输入/输出)。

而GLM-5大概只有Claude的七分之一。

很香,真的香。

另一方面那自然是不得不提的Coding Plan了,也是现在玩Vibe Coding的主流用法,基本都是买包月套餐,对标Claude Max和ChatGPT Pro的。

价格是Claude Max套餐的2/3,Token额度是他们的3倍。

甚至因为卖的过于火爆,算力不够,前两个套餐额度,直接被抢空了。。。

没错,一个包月套餐,被抢空了。。。

这个太离谱了。

白天的时候大家可以蹲一蹲,网址在此:

https://bigmodel.cn/glm-coding

当你有了GLM-5的权限之后,想用的话,我最推荐的还是在Claude Code里面用。

因为Claude Code就是目前确实最通用的Coding Agent产品,Codex是单纯的例外,主要跟GPT适配的太好。

而在Claude code里接入GLM-5挺简单的。

这一点智谱做的很好,他们做了一个Coding Tool Helper工具就是可以快速将你的GLM编码套餐加载到你使用的编码工具中。

直接打开终端,然后输入:

# 进入命令行界面,执行如下运行 Coding Tool Helper npx@z_ai/coding-helper

你就正常登录。

目前支持的编码工具 Claude Code、OpenCode、Crush、Factory Droid。

跟着配置就好,配置好以后,我们运行Claude Code。

你就可以使用GLM-5了。

我也做了几个case,给大家直观的感受一下,GLM-5的能力。

前天我拿到GLM-5的资格的时候,正好有个需求要开发,就是一个全平台分发文章的需求。

做自媒体的朋友们应该知道,文章写完不是真正的结束,而是刚刚开始。

我一般写完微信公众号文章需要把文章同步分发到其他平台,这是个很大的工作量,而且有的编辑器还不一样,会出现乱码,文本格式丢失问题,我真。。。

之前是用一个开源工具自己改的,但是其实没有那么好用,所以最近其实一直想自己开发一个。

所以,我当时就想,不如用GLM-5 Coding一个这样的全平台内容同步分发的这么个小产品吧。

开发完以后,发现效果居然还不错。

就是下面图中的这样,大概的功能就是把我微信公众号的文章链接放进去,然后点击想要同步的平台,就可以同步过去。

当时开发的时候其实Prompt给的巨简单。

开发一个全平台内容分发Chrome 扩展,实现: 点击插件后进入内容分发页面(独立页面,非小 popup) 输入微信公众号链接,自动提取标题、封面、正文(保留格式) 右侧大尺寸富文本编辑器展示和编辑内容 底部平台复选列表(小红书、知乎等) 点击同步后,打开目标平台发布页面,自动填充内容

当时给过去以后,GLM-5的体感上,其实就比之前GLM-4.7强很多了。

按惯例,他先提供给我了一些关键设计让我去选择。

我也秉持着先开发一个最小MVP的原则去的。

所以选的都比较谨慎。

接着GLM-5就给了超详细的规划。

速度不慢,很快就搞定了。

总体的完成度和实用性很好,不过因为最开始最小MVP的原则,分发的平台有点少,后续我直接让他添加其他的平台,两轮就完成了。

整体其实都还可以,但是在使用的时候,遇到了一个BUG。

就是我放入公众号链接后,让他提取标题、封面、正文,他标题和封面倒是可以成功提取出来,但是关键部分,也就是正文提取内容总是不全,会缺失一大截,图片也获取不到。

改了两三轮,还是有BUG,然后我上Opus 4.5,居然也没改成功。。。

最后打开了GPT-5.3-codex,一轮,完成了。。。

GLM-5跟Opus 4.5的差距没那么大,其实是有道理的。

说实话,主要还是,GPT-5.3-codex这玩意真的强的有点变态。

所以这个case,其实就是GLM-5做的整体规划和方案设计,然后最后遇到一个棘手的BUG上Codex解决的,整体体验上,我录制了一遍效果展示的视频,总体体验下来还是挺不错的。

然后还有另一个我觉得特别好玩的case。

就是,看到公司同事终于在用电脑模拟器,打欢乐斗地主。。。

当时他吐槽说,要是有记牌器就好了。。。

于是,我就想,这是个好思路,虽然不会帮他作弊,但是可以试一下大模型的能力。

上GLM-5试了一下,这个开发过程,还真的有点意思。

用的提示词很简单,就一句话。

“我正在我的电脑上玩欢乐斗地主PC模拟器版本,帮我写一个记牌插件。”

反正我是完全不知道怎么实现,更不知道怎么跟PC模拟器打通。。。

我就说了这么一个需求,GLM-5,他会自己进行更深入的咨询,包括识别方式、技术路线、功能需求,都会一一和我确认。

比如在实现方式上,他提供自动识别记牌、手动点击记牌等方案让我选择,每个方案还会给出不同的技术实现路线。

还有功能需求的确定,我这里选择了基础记牌。

第一轮对话下来,记牌器整体框架都搭建好了。

虽然我选择的是自动识别模式,但他很贴心地把自动开发和手动开发两种模式都做了。

手动模式第一轮其实就直接开发完了,就可以用了。

它的使用逻辑是需要我自己去看对方出什么牌,我就点击那张牌,牌数会自动减一。

但是这个逻辑太蠢了,一点都不自动,一点也不AI。

对方打一个牌,我还得手动点点点,这也太呆逼了。

所以我还是想要用自动识别模式,但第一轮对话后自动识别功能并没成功。

他这里自动识别的操作逻辑是这样的。

游戏开始的时候,我手动勾选出牌区域,他就会自动识别这个区域出的所有牌,并自动记牌。

但实际上,我选中出牌区域后,它没法识别出的牌。明明这边都打起来了,它这边一直等待识别。。。

我让它进一步修改。但是这样的bug它并没有一次改出来,改了一版后同样报错。

这个时候,它自己选择添加了调试功能。

我看了一下,应该是这个功能实现的链路主要有两部分,屏幕勾选区域截图,截图扑克牌识别,所以他需要调试确定哪个环节出了问题。

这一步,可能是模拟器的原因,还涉及到比较复杂的跟屏幕的交互和监控,所以我得帮他一起测试一下。

他显示出我勾选区域的截图,也有OCR结果,这样我一下就能明白到底是哪个环节出了问题。

然后我就发现,每隔半秒截图的功能没问题,核心问题是,OCR一直识别不出结果。

bug找到了,后面的活就方便了,我就交给他直接搞了。

GLM-5自己开发了一套方案,他给出的识别方案是这样的,给每张牌都上传模板。

就像这样。

然后他会对游戏页面截图进行灰度处理、二值化,然后和模板进行模式匹配,从而实现识别。

这个灰度处理和二值化,说实话我没听懂,我也怕GLM-5给我的不是最优解,所以打开了Opus 4.6和GPT-5.3-codex,让他们也同时出一套解决方案看看有没有更优解。

没想到跟GLM-5出的方案,是一模一样的,搞得还真没毛病。

这突然一下显得我有点小肚鸡肠,不信任GLM-5了= =

模板处理完之后,很快,他就把这个系统开发完了。

由于我注册的是新号,估计新手村对面是人机,出牌特别快。我本来还担心识别速度会跟不上。

没想到,识别效果出乎意料的好。除了大小王识别有点问题,其他全都能准确识别,哪怕是接连出顺子,也能精准识别。

相当牛逼了。。。

要知道,这真的不是那种普通的前端网页,这个实现方式,还是稍微有那么点复杂的。

GLM-5,完成的非常的好。

大小王的识别问题我初步想了一下,是因为上传的模板中,字母是一样的,只是颜色不一样。

图片经过灰度处理后大小王不就一样了吗,那肯定分不清。不过大小王还是比较好记的,所以也没管这个。

而且,这是我一两个小时不到就做出来的东西,而且是已经可以实战用上的东西,这个效率,还是相当恐怖的。。。

同时,这里我也提醒大家上网打牌的时候,特别是现在这个阶段,在网上用真钱去做一些游戏的时候,真的要谨慎一点,因为你不知道对面会不会像我一样,随手Vibe Coding一个外挂。。。

除了这两个之外,我还随手,复刻了一个QQ农场。

而且还有很多细节,比如如果我不收已经熟了的作物他会枯萎,然后农场里还会随机长出杂草、虫子。

相当有意思。

在数据存储上,还知道用浏览器LocalStorage作为数据存储,这是一个典型的前端单机游戏存储方案,很适合这种轻量级项目,大概的流程就是下面这个样子。

而且这个QQ农场消耗的token,也就十三万。。。

太离谱了。

从这些case其实已经非常客观的能看出来,GLM-5的开发能力,还是很强的,在一些规划、架构能力上,是真的可以比肩Opus 4.5的,虽然在精准的BUG修改上,离现在最变态的GPT-5.3-codex还有一些差距,但是我已经非常非常开心了。

而且还有个场景,GLM-5做的也很好,就是构建Skills。

这个其实也挺考验模型的理解和执行能力的。

我很喜欢用咱们的老演员yt-dlp测试GLM-5打包Skills的能力。

帮我把这个开源工具https://github.com/yt-dlp/yt-dlp打包成一个Skill,只要我后续给出视频链接,就可以帮我下载视频。

GLM-5封装的基本没有任何问题,一轮效果,B站视频就能成功下载了。

而下载youtube视频,它也精准的提出了,需要我给一个Cookies,他才能帮我下载,我依稀记得,当时用Opus 4.5打包这个Skills,对话了6、7轮,改了N版,他也没告诉我要Cookies这事,就在那自己傻逼兮兮的告诉我改好了,可以下了,一下又报错。。。

看着此情此景,回想半年前。

那时候,如果你问我,国产大模型能不能在Coding领域跟OpenAI和Anthropic正面刚,我会说很难。

差距太大了,不是一点半点,是那种让人绝望的差距。

但现在,GLM-5出来了,确实能摸到Opus 4.5的水平。虽然跟最新的Opus 4.6和GPT-5.3-codex还有差距,但这个差距已经从代差缩小到了可以追赶的范围。

这是一个很重要的变化。

而且更重要的是,GLM-5是开源的,价格更是Claude的N分之1。

能力接近,开源免费,价格便宜。

而开源,更是意味着,B端能用上,企业能用上。

AI编程这件事,在国内,门槛真的,正在急剧降低。

以前你想用顶级的AI编程能力,得买ChatGPT的会员,得有魔法,得付得起那个价格。

现在不用了。

GLM-5给了你一个平替选择,虽然在全球领域,他距离那个老变态,他还不是最好的,但已经是跻身T1行列了,而且人人也都能用得起。

这会让更多人开始尝试AI编程,会让更多人感受到AI的魅力。

而当更多人用起来之后,社区会更活跃,反馈会更多,模型会迭代更快。

这是一个正向循环。

这也代表,我们在人才、在算力、在资金各方面都缺少的地不是,是能追上的。

当然,追上不代表胜利。

OpenAI和Anthropic还在快速迭代,下一个版本可能又把差距拉开。

但至少,我们已经进入了同一个赛道,在同一个维度上竞争。

这就是进步。

我非常非常推荐大家,去试试GLM-5吧,真的还不错。

站在今天这个节点,我其实很想说跟冯骥一样的话:

我真的很庆幸,这个开源模型。

来自智谱,来自中国。

在ds和sd之后的另外一个Coding世界里,也有了中国身位。

惟愿。

国运昌隆。

相关内容

智谱GLM-5正式开源!登...
智谱AI正式上线并开源全新旗舰大模型GLM-5,引领大模型从Vib...
2026-02-12 19:24:04
国产AI春晚炸场!GLM-...
昨天晚上,智谱GLM-5 开源发布,算是打响了2026年AI春晚的...
2026-02-12 18:49:10
千问6天AI订单量破1.2...
2月12日,千问APP公布了“春节30亿大免单”首阶段战报:过去6...
2026-02-12 18:24:06
AI安全风险藏不住了!瑞星...
如今,人工智能已深度融入日常工作与生活,在带来高效便利的同时,其作...
2026-02-12 18:23:49
GLM-5深夜登场,这是国...
深夜,GLM-5来了。 还是老样子,发布即开源。 而且前几天,O...
2026-02-12 18:23:35
华为诺亚方舟实验室官网新版...
IT之家 2 月 12 日消息,华为诺亚方舟实验室官方今日宣布新版...
2026-02-12 18:23:12

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...