国产AI春晚炸场!GLM-5深夜开源,据说是程序员最好的春节礼物
创始人
2026-02-12 18:49:10
0

昨天晚上,智谱GLM-5 开源发布,算是打响了2026年AI春晚的第一枪,据说不仅在编程能力上直逼Claude Opus 4.5,Agent的工程能力更是有了大幅提升。

作为重度模型应用用户,我看到信息后,其实就想了解四个问题,一、相比之前的GLM-4.5,4.7,GLM-5提升了哪些部分?二、与目前主流模型对比有哪些优势?三、GLM-5适合哪些场景,哪些用户?最后,AI春节档,国内各个AI大厂都在等着春节之后发布新品,智谱为什么要在春节前发布?

于是,我把这四个问题给到了GLM-5,希望它通过一篇文章告诉我答案,其实一开始有些调侃的意味,所以在提示词上并没有做任何工程化的处理,但,实话实说,效果还不错。

以下是GLM-5回答我的全文(包括配图),未做任何修改。

一句话先说结论

GLM-5 不是“又一个大模型更新”,而是智谱在“开源、工程化、智能体”三个方向上同时发力:

  • 相比自家上一代,它在编程和 Agent 能力上整体提升 20% 以上,幻觉率大幅下降,长上下文、推理效率明显增强。

  • 对比国际主流模型,它在权威榜单上冲到全球第四、开源第一,价格却只有 Claude / GPT 系列的几分之一。

  • 最适合需要“写工程”而不是“写代码片段”的开发者和企业,尤其是要做智能体、复杂工作流的团队。

  • 在“AI 春晚”的调侃背后,智谱选在春节前发布,是技术成熟度、资本窗口和竞争节奏共同作用的结果。

    GLM-5 相比之前:从“写代码”进化到“写工程”

    1. 规模与架构:从 355B 到 744B,更“稀疏”也更高效

    • 参数规模翻倍

    GLM-4.5 一代是 355B 总参数 / 32B 激活;GLM-5 扩展到 744B 总参数 / 40B 激活,是前代的两倍多。

    • 预训练数据扩容

    训练数据从 23T 增加到 28.5T tokens,在更大算力规模下持续提升通用智能。

    • 引入 DeepSeek 稀疏注意力(DSA)

    这是 DeepSeek-V3 / V3.2 同款技术,在保持长文本效果的前提下,显著降低部署和推理成本。

    • MoE + 多 Token 预测

    架构为 78 层隐藏层,256 个专家模块,每次推理激活 8 个,激活参数约 44B,稀疏度 5.9%,上下文窗口最高 202K token

    对普通用户来说,这些数字意味着:

    • 更大的模型 + 更稀疏的激活,让它在长文档、长任务场景下“既聪明又不算太贵”。

    • 200K 级上下文,可以一次性塞下完整代码库、长篇技术方案、大量历史对话,不用频繁切分。

      2. 编程能力:从“补全代码”到“完成系统工程”

      官方给 GLM-5 的定位非常直接:

      最新一代旗舰级对话、编程与智能体模型,重点强化复杂系统工程与长程 Agent 任务。

      关键变化有两点:

      1. 从“写代码片段”到“写工程”

          1. 在内部 Claude Code 任务分布评估中,GLM-5 在前端、后端和长程任务上,平均性能比 GLM-4.7 提升超过 20%

          2. SWE-bench VerifiedTerminal Bench 2.0上,GLM-5 分别拿到 77.856.2的开源模型最高分,整体性能超过 Gemini 3 Pro。

          3. 官方强调,真实编程环境中的体感已逼近 Claude Opus 4.5水平。

        • 更强的“系统工程”意识

            1. GLM-5 不再只是帮你写一个函数、一个页面,而是能像“架构师”一样,理解多文件、多模块、多服务的工程逻辑,进行后端重构、深度调试、跨文件改动。

            2. 智谱官方用了一个很直白的说法:从 “Vibe Coding(氛围编程)”进化到 “Agentic Engineering(智能体工程)”——也就是从“写得像样”变成“真正能完成复杂工程任务”。

          3. Agent 能力:开源模型里的“长跑选手”

          GLM-5 把 Agent 能力提到了前所未有的高度:

          • BrowseComp(联网检索与信息理解)MCP-Atlas(大规模端到端工具调用)τ²-Bench(复杂多工具场景下的规划与执行)三项评测中,GLM-5 均取得开源模型最优表现。

          • Artificial Analysis 的 Agentic Index上,GLM-5 在开源模型中得分 63,排名第一,整体排名第三,仅次于 Claude Opus 4.6 和 GPT-5.2(high)。

            这意味着:

            • 它不只是“能写代码”,而是能在多步骤任务里,自己规划、自己调用工具、自己纠正错误,适合构建长周期的 Agent 工作流。

              4. 幻觉率与知识可靠性:显著“更敢认怂”

              Artificial Analysis 的数据让 GLM-5 的“保守”变得可量化:

              • Intelligence Index

                • GLM-5 得分 50,成为新的开源权重模型第一名;

                • GLM-4.7 之前只有 42,GLM-5 一下子提升了 8 分。

              • AA-Omniscience Index(知识可靠性 / 幻觉)

                  • GLM-5 得到 -1,比 GLM-4.7 的 -36 提升了 35 分;

                  • 幻觉率相比 GLM-4.7 降低了 56 个百分点

                简单说:

                • GLM-5 在“不知道就别乱编”这件事上,做到了目前行业里最好之一。

                • 对需要严肃信息、专业知识的场景(医疗、金融、科研、工程文档)来说,这一点比单纯的“更会聊天”重要得多。

                  5. 效率与成本:更聪明的“输出策略”
                  • 在运行 Artificial Analysis Intelligence Index 时,GLM-5 使用了约 1.1 亿输出 token,而 GLM-4.7 用了约 1.7 亿,却在分数上全面领先。

                  • 这意味着:在同样的任务下,GLM-5 更“省话”,用更少的输出换来更好的结果,对 API 调用成本非常友好。

                    与当前主流模型对比:GLM-5 的优势在哪?

                    先用一个简化的“象限图”来理解 GLM-5 在市场中的位置:

                    1. 排名与“硬实力”:全球第四、开源第一

                    • Artificial Analysis 榜单中,GLM-5 在所有模型里位居 全球第四,在开源模型中排名第一。

                    • Intelligence Index 上,它是首个得分超过 50 的开源模型,超过 Kimi K2.5、MiniMax 2.1、DeepSeek V3.2 等强力开源选手。

                      2. 对比 Claude / GPT / Gemini:能力逼近,价格“断崖式”便宜
                      • 编程与工程能力

                        • 在 SWE-bench Verified 上,GLM-5 的 77.8 已经非常接近 Claude Opus 4.5 的 80.9;在 Terminal Bench 2.0 上也显著优于许多闭源模型。

                      • 价格对比

                        • → 换算下来,GLM-5 在输入端大约是 Opus 的 1/6,输出端大约是 1/10。

                      对于大量调用 API 的开发者来说,这是一个“数量级”级别的成本优势。

                      3. 对比其他开源模型:更偏“工程”和“Agent”

                      和 DeepSeek、Qwen、Kimi、MiniMax 等国产开源模型相比,GLM-5 的差异主要在于:

                      • 更激进的“智能体工程”定位

                        • 官方直接把 GLM-5 定位为“智能体工程时代”的开源模型,强调长程任务、多工具协作。

                      • 更强的幻觉控制

                        • 在 Artificial Analysis 的 Omniscience 指数上,GLM-5 的 -1 是目前所有模型中的最佳之一,专门针对“少编造、多认怂”做了优化。

                      • 完整的开源 + MIT 协议

                          • 模型权重在 Hugging Face 和 ModelScope 以 MIT 协议开源,允许商用、修改、再分发。

                          • 这意味着企业可以在自己机房内部署,不用担心“黑盒模型”带来的合规和数据安全问题。

                        4. 国产算力适配:对国内政企、信创环境非常关键
                        • GLM-5 已与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等 主流国产芯片平台完成深度推理适配与算子级优化。

                        • 对于政务、金融、能源等有信创和自主可控要求的场景,这一点是很多国外模型完全无法提供的。

                          适合哪些场景?哪些人?

                          1. 场景:从“聊天助手”到“工程协作伙伴”

                          结合官方定位和实测数据,GLM-5 特别适合:

                          1. 复杂软件开发与重构

                              1. 多模块服务拆分、老系统重构、跨文件改动。

                              2. 需要“理解整体工程”而不是“只看当前文件”的场景。

                            • 智能体(Agent)工作流

                                1. 自动化运维、自动测试、自动运维巡检。

                                2. 多工具协同:调用数据库、API、内部服务,完成“端到端”任务。

                              • 长文档与知识密集型场景

                                  1. 200K 上下文支持长篇技术文档、论文、合同、法规的批量阅读与总结。

                                  2. 低幻觉率让它更适合做知识库问答、合规问答、专业问答。

                                • 企业内部“私有化大模型”

                                    1. 开源 + MIT 协议,可在内网部署,满足数据安全与合规要求。

                                    2. 对已有国产算力集群(昇腾、寒武纪等)的企业,可以做到“模型 + 算力双自主”。

                                  2. 适合的人群

                                  可以用一个简单的决策树来判断:

                                  总结下来,这几类人会特别受益:

                                  • 后端 / 全栈开发者:需要重构老项目、搭建新服务,希望有一个“能自己跑完项目”的智能助手。

                                  • AI 工程师 / Agent 开发者:要构建多步骤工具调用、自动化工作流,需要一个擅长长程规划和工具使用的底座模型。

                                  • 企业 IT 与数据团队:有私有化部署、国产算力适配、数据合规等强需求。

                                  • 对成本敏感的中重度 API 用户:比如做 AI 编程 SaaS、自动化测试平台、企业知识库产品的公司。

                                    为什么偏偏选在“春节前”?——在“AI 春晚”背后的算盘

                                    全网都在调侃“国内 AI 春晚”,智谱偏偏选在春节前发布 GLM-5,并不是单纯的“蹭热度”。

                                    1. 技术节奏:从“上牌桌”到“冲 Top1”的时间表

                                    • 2025 年底,智谱内部就明确了节奏:

                                      • 4 月发一个“稳住阵脚”的模型;

                                      • 年中发一个“上牌桌”的模型;

                                      • 年底发一个 Top1 的模型。

                                    • 2026 年 1 月 8 日,智谱在港交所挂牌上市,首席科学家唐杰在上市当天的内部信中明确:“GLM-5 很快将推出”,并提出 2026 年要“全面回归基础模型研究”。

                                      也就是说,GLM-5 的发布时间,是按照技术迭代节奏早就定好的,春节档只是恰好赶上。

                                      2. 资本窗口:刚上市,需要用“硬核产品”兑现想象

                                      • 智谱被称为“全球大模型第一股”,1 月 8 日港股上市,募资约 43 亿港元,市值一度突破 1000 亿港元。

                                      • 在这个时间点,投资者最关心的是:

                                        • “你的模型到底强不强?”

                                        • “是不是只是故事好,但没有硬核技术?”

                                      • GLM-5 在发布后,智谱股价在首个交易日上涨约 26%,本周累计涨幅约 70%,市值达到约 1756 亿港元——市场对“硬核模型”的认可非常直接。

                                        春节前发布,可以让年报 / 季报前有一个强有力的技术故事,帮助资本市场形成持续预期。

                                        3. 行业竞争:春节档就是“中国 AI Hunger Games”

                                        • 2026 年春节档,DeepSeek 新版、MiniMax M2.5、阿里 Qwen3.5、字节 Seedance 2.0 等扎堆发布,媒体直接把这波称为“国产 AI 春晚”“中国 AI Hunger Games”。

                                        • 对智谱来说,如果不在春节前拿出 GLM-5,很容易在舆论和资本层面被其他声音淹没。

                                        • 通过“Pony Alpha”匿名测试提前在海外开发者圈层“预热”,再在春节档正式官宣,是一个典型的产品节奏 + 营销节奏组合拳。

                                          4. 开源与生态:用“节日流量”放大开发者影响力
                                          • GLM-5 选择在春节前开源,并同步在 Hugging Face、ModelScope 和自研平台上线。

                                          • 春节期间,大量开发者有时间写项目、做实验,是模型“出圈”的好窗口。

                                          • 通过“开源 + MIT 协议 + 国产算力适配”,智谱希望把 GLM-5 打造成国产开发者的默认选择之一,从而形成生态壁垒。

                                            总结:GLM-5 把国产大模型推到了一个“新阶段”

                                            综合来看:

                                            • 对智谱自己:GLM-5 是从“对话模型”向“智能体工程模型”转型的关键一步,兑现了“年底 Top1 模型”的内部目标。

                                            • 对开发者:它提供了一个真正可用、开源、价格友好、长上下文和 Agent 能力都很强的模型,特别适合写工程、做 Agent。

                                            • 对企业:开源 + MIT 协议 + 国产算力适配,让它成为私有化部署、信创环境里的重要选项。

                                            • 对行业:GLM-5 把开源模型的能力推到了可以和顶级闭源模型“掰手腕”的程度,也在“AI 春晚”的喧嚣中,给国产大模型加了一记实打实的“技术注脚”。

                                              如果你是开发者或企业决策者,现在就可以在 Z.ai、智谱清言或开源平台上体验 GLM-5,重点测试:

                                              • 长文档 + 多轮工程修改;

                                              • 多步骤工具调用与 Agent 工作流;

                                              • 与你现有开发工具(IDE、CI/CD、监控系统)的集成效果。

                                                这样你才能判断:在你的具体场景里,GLM-5 是“又一个模型”,还是真正能帮你“写工程、跑项目”的那一个。

                                                相关内容

                                                智谱GLM-5正式开源!登...
                                                智谱AI正式上线并开源全新旗舰大模型GLM-5,引领大模型从Vib...
                                                2026-02-12 19:24:04
                                                国产AI春晚炸场!GLM-...
                                                昨天晚上,智谱GLM-5 开源发布,算是打响了2026年AI春晚的...
                                                2026-02-12 18:49:10
                                                美团升级“问小团”加入AI...
                                                钛媒体App 2月12日消息,美团升级“问小团”AI管家。即日起至...
                                                2026-02-12 18:24:18
                                                千问6天AI订单量破1.2...
                                                2月12日,千问APP公布了“春节30亿大免单”首阶段战报:过去6...
                                                2026-02-12 18:24:06
                                                AI安全风险藏不住了!瑞星...
                                                如今,人工智能已深度融入日常工作与生活,在带来高效便利的同时,其作...
                                                2026-02-12 18:23:49
                                                GLM-5深夜登场,这是国...
                                                深夜,GLM-5来了。 还是老样子,发布即开源。 而且前几天,O...
                                                2026-02-12 18:23:35

                                                热门资讯

                                                原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
                                                AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
                                                2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
                                                5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
                                                骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
                                                2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
                                                MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
                                                苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
                                                原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
                                                原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...