万亿模型Kimi K2开源登顶:开源第一只是序章
创始人
2025-07-29 22:43:10
0

从“堆料”到“调度”:万亿参数如何学会只派精锐

深夜的北京,月之暗面把一份沉甸甸的技术报告推送到GitHub,宣告Kimi K2正式开源。与半年前人们猜测的“千亿内卷”不同,这次直接甩出1.04万亿总参数,却只用320亿激活参数干活。

以往大模型比拼的是“谁更大”,但Kimi K2反其道而行之,用MoE(混合专家)架构玩起了“精准派遣”——1万亿参数像一支待命的军队,却只调动320亿精锐部队上场作战。数字经济应用实践专家骆仁童博士表示,曾经被视为“体力劳动”的参数规模竞赛,如今被Kimi K2转化成了脑力革命,在AI世界里,重要的不是你有多大,而是你能多巧妙地把力量转化为结果。

支撑这场“脑力革命”的幕后功臣,是MuonClip优化器。传统AdamW面对万亿规模时容易“失控”,MuonClip在每一步训练后自动给注意力logits“剪枝”,15.5 T token跑下来零尖峰,损失曲线平滑得被网友称作“机器学习史最优美的弧线”。再配合MLA隐式注意力与384位专家的稀疏路由,K2把显存压力切成细片,单卡也能跑长文,128 K上下文不再是奢侈品。

数据端同样不按常理出牌。团队没有把高质量语料反复“刷题”,而是让大模型自己当老师,把维基百科改写成侦探故事,把数学证明改写成费曼式笔记,一次改写+单轮训练的准确率反而比原始数据十轮高5个百分点。这种“用不同姿势讲同一件事”的巧思,让稀缺数据的价值被榨到极致,也降低了后来者“拼语料”的门槛。

开源第一之后,为什么开发者连夜把服务器搬到K2

模型上线当晚,海外聚合平台OpenRouter的调用量在20分钟内被K2推高到第一,把Grok 4挤到第二;Hugging Face的Star数三天破30 k,VS Code、Cursor、Cline等国际插件宣布原生接入。开发者社区最直观的体感来自价格:4元/百万输入、16元/百万输出,比Claude 4 Sonnet便宜80%,性能却能在LiveCodeBench拿下53.7%,直接逼近闭源标杆。

更关键的是“开箱即用的Agent能力”。过去要让大模型写代码、调API、画图表,需要开发者自己拼装提示词、工作流、沙箱。K2把十万多条真实+合成的工具调用轨迹塞进后训练,模型看到需求就能自动拆步骤、找工具、跑代码,还能用自评奖励给自己打分。有人把13万行薪酬数据扔给它,K2连统计检验、回归模型、交互式网页一次性打包,全程只花3分钟,token消耗不到0.2美元。

这种“数字员工”式体验,让初创公司第一次有了与巨头同台竞技的筹码。硅谷一家三人团队用K2在48小时内做出了一款自动抓取财报并生成可视化研报的产品,节省了原本需要一名数据工程师加一名前端工程师两周的工作量。开源权重的MIT协议意味着他们无需担心法律风险,也不用支付闭源模型的阶梯分成。K2不仅抢了开源第一,还把“闭源护城河”的价格与能力双壁垒一起拉下水。

DeepSeek的雨季与基模的下一站

当Kimi以1T参数、Agentic能力、MIT协议三连击冲进市场,DeepSeek的流量曲线却悄悄掉头向下。QuestMobile数据显示,DeepSeek 5月月活环比下滑5.1%,App Store排名跌出30名开外。导火索并不复杂:R2因H20出口管制迟迟不能上线,64 K上下文在多轮Agent任务里捉襟见肘,而API价格又被阿里、字节、Kimi轮番腰斩。

DeepSeek的开源策略宛如在AI江湖抛出了个“屠龙刀谱”,引得众生蜂拥抄作业。但当所有人都学会这套刀法后,战场格局悄然生变:Kimi用万亿参数MoE架构正面硬刚,MiniMax以512块H800实现成本碾压,甚至科技大厂直接祭出价格屠刀。这恰似当年小米手机颠覆行业后的百团大战——先驱者点亮了火把,追随者却用更亮的灯光淹没了他的身影。数字经济应用实践专家骆仁童博士表示,真正的核心竞争力从不在显卡数量,而在如何用有限资源玩转无限可能。当硅谷巨头还在拼算力军备竞赛时,东方智慧早已证明,算法优化才是突破封锁线的密钥。

好消息是,黄仁勋第三次访华后,英伟达确认H20许可证已重新递交,DeepSeek最快8月就能拿到“算力及时雨”。但雨季之后,基模的卷点已悄然转移:谁能把2万合成工具扩展到20万真实SaaS API,谁就能把Agent生态做成下一个App Store;谁能把128 K/1 M长上下文装进单卡显存,谁就能吃下企业级长文档、代码仓库的刚需;谁能在开源权重之上做出安全、合规、私有部署的增值层,谁就能在B端市场拿到可持续的订阅收入。

Kimi K2掀起的开源风暴只是序章。当万亿参数开始“打工”,下一步的战场已不在实验室,而在生产线、在真实世界的每一次点击和每一行代码里。

相关行业分析:

月之暗面新动向:“联姻”小红书、试水AI社区产品,杨植麟能找到Kimi的翻红之路吗?

AI行业用户增长战争白热化,Kimi如何在竞争激烈的市场中找到独特定位?

国产大模型竞争下半场,"AI六小虎"的生死博弈:谁能在DeepSeek冲击下逆袭?

百万神话独领风骚,DeepSeek的开源商业模式大揭秘!

改写AI应用市场规则:DeepSeek加速AI生态融合新格局

商道童言(Innovationcases)欢迎点赞和分享哦!~~

热推新书《AI提问大师》《DeepSeek应用能手》现已上架!

免费电子书:结构化思维 | 荆棘商途 | 年度十词 |创新企业案例 | 区块链金融

数字经济应用实践专家 骆仁童主讲课程

数字应用:《AI人工智能》《数据资产》《大数据》

数字中国:《数字政府》《智慧交通》《碳资产》

数字化转型:《制造业数转》《零售业数转》《中小企业创新》

产业数字化:《银行金融科技》《电力能源互联网》《烟草数转》

创新与思维:《数字化思维》《组织变革》《商业模式》《创业导师》

相关内容

高途联创罗斌:如何通过AI...
多知7月29日消息,2025年7月26日至28日,2025世界人工...
2025-07-30 10:14:48
AI学什么(第10期):A...
大家好,我是蓝衣剑客,欢迎来到「AI学什么」——一个专注于AI科普...
2025-07-30 10:13:04
AI观察|AI生态迭代:应...
2025年,AI应用加速落地。 刚刚落幕的2025WAIC世界人工...
2025-07-30 09:42:04
开源≠无条件免费:Coze...
原来我对开源协议的理解还是不够深,Coze开源才让我明白目前的几个...
2025-07-30 08:13:44
原创 ...
文/杨剑勇 信息科技以惊人的速度发展,并在每次科技变革中,都会涌现...
2025-07-29 23:13:09
万亿模型Kimi K2开源...
从“堆料”到“调度”:万亿参数如何学会只派精锐 深夜的北京,月之...
2025-07-29 22:43:10

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...