基于OpenRouter平台超100万亿Token的实证研究显示,大型语言模型市场正经历深刻重构。开源模型份额已攀升至33%,彻底打破闭源模型垄断,市场格局从DeepSeek的"一家独大"转向多元竞争,而中国开源AI在这场变革中强势崛起,正式跻身全球第一梯队。
12月4日,硅谷著名风投公司a16z、大模型API平台OpenRouter在共同撰写的报告中称,这一变革的核心驱动力来自中国模型的爆发式增长。数据显示,中国开发的开源模型市场份额从2024年底的1.2%飙升至2025年中近30%的峰值,年平均占比达13.0%,与世界其他地区开源模型13.7%的份额几乎持平。Qwen、DeepSeek、MoonshotAI等中国模型凭借技术能力与本土化适配优势,实现了从边缘参与者到核心玩家的跨越。
报告指出,开源生态内部竞争格局同步剧变。2025年中的"夏季拐点"后,市场从DeepSeek家族占据超50%份额的高度集中,快速走向碎片化竞争。到2025年底,已无任何单一模型能持续占据超25%的市场份额,用户选型逻辑从锁定"最佳模型"转变为在5-7个顶尖模型间灵活组合。
此外,研究报告揭示了多个颠覆性趋势:中型模型(15B-70B)正在替代小模型成为主流,智能体推理能力超越文本生成成为核心价值,编程应用占比从11%飙升至超50%,亚洲市场支出份额从13%翻倍至31%。竞争规则已从排行榜跑分转向真实世界的使用留存和工作负载匹配能力。
中国力量重塑开源格局
报告称,开源模型市场已形成"闭源定义性能上限,开源提供多元价值"的双轨结构。截至2025年底,开源模型的市场份额稳步攀升至33%,这一增长并非短期热潮,而是由DeepSeek V3、Kimi K2等高质量模型持续迭代驱动。
中国开源模型的崛起速度超出预期。2024年底,中国模型市场份额仅为1.2%,而到2025年中,其峰值已达近30%。Qwen、DeepSeek、MoonshotAI等中国模型在技术能力与本土化适配上展现出独特优势,标志着中国AI正式杀入开源赛道全球第一梯队。
从全球区域分布看,亚洲市场的整体崛起最为显著,全球支出份额从研究初期的13%翻倍至31%,成为关键增长引擎。北美虽仍是最大单一区域,但其支出份额已长期低于50%。
语言分布数据显示,简体中文以4.95%的占比成为仅次于英语的第二大语言,反映出中国市场的强劲需求。
从垄断到多强共治
据报告,2024年底的开源市场呈现高度集中格局,DeepSeek家族的V3和R1模型合计占据超50%的Token使用量,几乎形成"一家独大"局面。但这一格局在2025年中的"夏季拐点"后被彻底颠覆。
随着Qwen、Minimax、Kimi K2、GPT-OSS系列等新晋模型的密集发布,开源市场竞争壁垒被打破。这些新模型在发布后数周内便实现大规模生产级应用。到2025年底,已无任何单一模型能持续占据超25%的开源市场份额。
用户行为模式发生根本性转变。开发者从默认锁定"最佳模型",转变为在5-7个顶尖模型中进行多样化组合。这一变化标志着开源生态正式进入"群雄割据"的充分竞争阶段,多模型生态成为行业常态。
"中型即新小型"颠覆尺寸认知
超百万亿Token的实证数据彻底推翻了"开源生态由小型轻量模型主导"的传统认知。数据显示,开发者正用实际行动重塑模型尺寸格局。
应用场景的中国特色小型模型(<15B)尽管数量持续增加,但总使用份额不断萎缩,且市场高度碎片化,难以形成稳定的使用粘性。
相比之下,中型模型(15B-70B)实现了从无到有的爆发式增长,以Qwen2.5 Coder 32B为代表的中型模型迅速构建起竞争激烈的生态。
这类模型精准匹配了用户对"能力与效率平衡点"的需求,成为开源市场的核心增长极,印证了"中型即新小型"的行业新共识。
大型模型(>70B)领域同样呈现多元化竞争态势,Qwen3 235B、Z.AI GLM 4.5等模型成为基准测试核心标的,用户倾向于在多个顶尖大模型间灵活切换。
从开源模型的整体任务分布看,角色扮演以超50%的Token占比成为第一大应用,得益于开源模型内容限制较少的天然优势。编程辅助以15%-20%的占比位居第二,且份额持续增长。
但中国开源模型展现出显著差异化特征。与全球市场"角色扮演主导"不同,中国开源模型的编程加技术类应用合计占比达39%,超过了33%的角色扮演占比。
这一差异表明,中国开源模型已在代码生成、技术推理等生产力领域具备与世界一流模型直接竞争的能力。其价值落点更偏向专业效率提升而非娱乐互动,这种定位可能为中国模型在企业级市场开辟独特竞争优势。
智能体推理引领范式转移
研究揭示的最具颠覆性发现是LLM使用方式的根本性范式转移——从单轮文本补全全面转向多步骤、工具集成的智能体推理工作流。
专为推理优化的模型处理的通证量从2025年初几乎可忽略不计飙升至占总使用量的50%以上。这一变化由供需双向驱动:
供给侧,GPT-5、Claude 4.5等模型的发布大幅提升了推理能力上限;需求侧,用户愈发青睐能管理任务状态、遵循多步逻辑、支持智能体式工作流的模型。
伴随智能体推理崛起的还有两大关键特征:
"水晶鞋效应"定义新护城河提示长度剧增,平均每个请求的输入通证数从1.5K增长近4倍至6K以上,其中编程任务提示长度超20K,是其他类别的3-4倍;
工具调用日益普及,Claude 4.5 Sonnet、Grok Code Fast等模型领先布局,标志着LLM从"文本生成器"向"行动执行器"的本质转变。
研究发现了一批具备超高长期留存的"奠基用户群",并提出"灰姑娘的水晶鞋效应"框架解释这一现象,定义了AI时代的核心护城河。
该框架核心逻辑是:市场中始终存在未被满足的高价值"工作负载";每一代新模型发布都是一次"试穿水晶鞋"的匹配过程;当模型首次完美解决特定工作负载的技术与经济约束时,用户会围绕该模型构建流程与数据管道,形成极高转换成本与粘性。
数据印证了这一逻辑:Claude 4 Sonnet、Gemini 2.5Pro的早期奠基用户群5个月后留存率仍达40%,而Llama 4 Maverick等未实现匹配的模型所有用户群留存表现均极差。此外,DeepSeek模型还呈现独特的"回旋镖效应",部分流失用户在尝试其他模型后会再度回归。
这一发现揭示,真正的竞争壁垒来自"工作负载-模型"的率先匹配以及由此形成的高粘性奠基用户群,留存远比增长关键。行业焦点正从排行榜的微小优势转向真实世界使用的实证分析与运营优化,从单一模型竞争转向多模型灵活策略,开源与闭源、东方与西方将长期共存竞争。
上一篇:太原市迎泽区委书记李慧被查