曦望,死磕AI推理成本|甲子光年
创始人
2026-01-28 19:49:15
0

解析曦望新一代推理GPU芯片启望S3。

作者|王艺

编辑|王博

国产GPU又有新发布。

1月27日,国产GPU厂商曦望(Sunrise)在杭州发布新一代推理GPU芯片启望S3,并同步推出面向大模型推理的超节点方案及推理云计划。这是曦望在近一年累计完成约30亿元战略融资后的首次系统性技术亮相。

曦望是国产全栈自研人工智能算力芯片企业,前身是商汤大芯片部门,2024年底分拆独立运营,专注于高性能GPU及多模态场景推理芯片的研发与商业化。

曦望联席CEO王勇身穿皮衣、牛仔裤走上舞台,作为一位芯片技术老兵,这个场景他并不陌生。王勇曾任AMD dGPU首席架构师、昆仑芯核心架构师,2020年加入商汤科技领导大芯片部门,为曦望的前身奠定技术基础。

这一次,他和团队目标很明确——极致推理性价比

启望S3是一款面向大模型推理深度定制的GPGPU芯片,其设计进行了系统级重构。

在算力层面,启望S3支持从FP16到FP4的多精度灵活切换。模型在保证效果的前提下,最大化释放低精度推理效率。

在存储层面,启望S3采用LPDDR6显存方案,成为国内首款采用该方案的芯片。相比HBM(高带宽内存)路线,LPDDR6更强调容量与能效比。

系统级重构,也体现在推理成本上。在DeepSeek V3/R1满血版等主流大模型推理场景中,启望S3单位Token推理成本较上一代产品下降约90%。

“当推理成为主要算力消耗场景后,GPU的商业价值不再取决于参数指标,而是单位Token的真实成本。”王勇说。

这并不是在“画饼”。「甲子光年」了解到,曦望2025年推理GPU芯片交付量已突破1万片,这说明其推理GPU路线已完成从工程验证到规模化交付的关键跨越。

而新发布的启望S3目前已完成内部研发,预计将于今年年中流片,年底回片量产。

卖芯片不是一锤子买卖,如何把算力转化为可交付的生产力,是所有国产GPU厂商都需要回答的问题。

1.死磕推理成本

硅谷早期风险投资机构Benchmark的合伙人Everett Randle在2025年底接受采访时表示,AI应用会有大量的AI推理成本计入COGS(销售成本),导致毛利率低于传统SaaS。

“人们因此认为AI应用不是一门好生意。”Everett Randle说,“但如果关注单客绝对毛利率,AI应用的绝对毛利润可以达到普通SaaS公司的四到五倍,拥有比SaaS公司大得多的潜在市场。”

以刚刚上市的智谱为例,招股书显示,智谱在2022~2024年毛利率分别为54.6%、64.6%、56.3%,2025年上半年回落至50%,这虽然高于传统项目制公司,但和传统SaaS行业相比并不突出。

就在今年的CES上,英伟达创始人&CEO黄仁勋宣布新一代Rubin平台通过“极端协同设计”整合六款芯片(GPU、CPU、NVLink 6、DPU等),这将加速agentic AI、高级推理以及大规模混合专家(MoE)模型推理,其每token成本比Blackwell平台降低了多达10倍。

黄仁勋在CES 2026演讲,图片来源:「甲子光年」拍摄

降低推理成本已逐渐成为行业共识。

在这次曦望的发布会上,曦望董事长徐冰把行业的变化概括为三句话:需求变了、场景变了、成本结构变了。AI正在从“被训出来”走向“能被用起来”的实战阶段。智能体、物理AI、3D/视频生成等场景爆发,会让推理从配角变成主力。

“谁能持续降低推理成本,谁就掌握了AI产业的成本曲线。”徐冰说。

徐冰此前是商汤集团联合创始人、执行董事及董事会秘书。去年,徐冰辞去商汤集团执行董事、董事会秘书职位。后来徐冰担任曦望董事长,开始掌舵这家国产GPU公司。

“如果我们能够让推理的成本下降90%,并且可以提供稳定的服务,那我们的竞争不是市面上的又多一个芯片选择,而是说我们可以真正重写中国AI产业的损益表,助力全行业盈利增收。”徐冰说。

但这次发布会,曦望并没有公布启望S3更为具体的性能参数,仅用一张综合性能指标表格进行了对比。

启望S3综合性能指标,图片来源:「甲子光年」拍摄

不过,「甲子光年」根据图中的信息可以解读出,启望S3的综合性能与摩尔线程的S系列智算加速卡相当,高于昇腾910B、英伟达A系列,低于昇腾910C、英伟达H系列。

对比来看,以摩尔线程大模型智算加速卡MTT S4000为例,其采用第三代MUSA架构,配备了Tensor核心,单卡支持48GB显存和768GB/s的显存带宽。

王勇在现场更多强调的是成本,启望S3的单卡成本预计在2~4万元之间,比友商更具性价比。

那么,如何降低推理成本?曦望进行了一场架构革命,王勇称之为“重新定义推理GPU”。

启望S3架构进化,图片来源:「甲子光年」拍摄

PPA是芯片设计核心指标,代表Power(功耗)、Performance(性能)、Area(面积)。王勇介绍,启望S3追求极致的PPA,在架构上扬弃了所有与训练相关的比较重且贵的技术组件,而采用了比较新的针对推理极致优化的架构和技术组件。

在IP层面,团队融合了国际主流GPU架构的最新特性,引入Warp调度优化与Tensor Memory等先进设计,并在合规前提下采用目前最先进的国际工艺节点,同时集成国际巨头的高速接口IP。

启望S3最显著的差异化在于显存方案。由于HBM与先进封装强绑定,这会大幅推高训推一体芯片的成本,在做了非常多的架构研究后,曦望发现LPDDR6才是当前推理的最优解。

如果说HBM是为训练而生,追求极限带宽,不惜成本,那么LPDDR6就是为推理而生,追求容量与能效比,极致成本控制。

因此启望S3成为国内首款采用LPDDR6方案的芯片。官方数据显示,S3的显存容量较上一代产品提升4倍,有效缓解了大模型推理中普遍存在的显存驻留与访存瓶颈。

而从本质上来看,曦望团队是在“性能-成本-功耗”的不可能三角中,针对推理负载特性(非连续计算、大容量需求、成本敏感)做出的精准取舍。

启望S3还拥有“黄金访存比”,这也是团队在研究大模型本身特点后的发现,达到访存比的“甜点”意味着不浪费每一分的算力和带宽。

最后是核心性能。王勇介绍,Flash Attention算子计算效率高达98%;GEMM算子TensorCore利用率更达99%,基于这些数据,王勇称:“曦望的研发和架构能力遥遥领先。”

2.不止芯片

围绕启望S3,曦望同步发布了面向大模型推理的寰望SC3超节点解决方案。

寰望SC3从一开始即面向千亿、万亿级参数多模态MoE推理的真实部署需求进行设计。该方案支持单域256卡一级互联,可高效支撑PD分离架构与大EP(Expert Parallelism)规模化部署,显著提升推理阶段的系统利用率与稳定性,适配长上下文、多并发、多专家并行等复杂推理场景。

在交付形态上,寰望SC3采用全液冷设计,具备极致PUE表现,并支持模块化交付与快速部署。在同等推理能力量级下,该方案可将整体系统交付成本从行业常见的亿元级,降低至千万元级,实现一个数量级的下降。

寰望SC3超节点,图片来源:「甲子光年」拍摄

除了寰望,S3的产品矩阵还包括智望系列的PCIe卡与OMS卡、辰望系列的PCIe服务器与OMS服务器,以及熙望系列的AIPC(液冷工作站)。

S3产品矩阵,图片来源:「甲子光年」拍摄

在软件层面,曦望构建了与CUDA兼容的基础软件体系,覆盖驱动、运行时API、开发工具链、算子库和通信库,降低推理应用的迁移门槛。目前,该体系已适配ModelScope平台90%以上主流大模型形态,包括DeepSeek、通义千问等。

曦望软硬协同,图片来源:「甲子光年」拍摄

此外,曦望团队在卡间互联方面也做了很多工作,支持高带宽、低延时的Scale-Up、Scale-Out互联架构,这种原生支持的互联架构可以让寰望超节点产品,不仅是256卡,也可以向下覆盖。

“这取决于我们的客户的需求,可以做到16到256卡这样的超节点产品。同时,当我们把多个超节点通过我们直出的RDMA(远程直接内存访问)连接起来的时候,我们可以做到千卡甚至几千卡的互联集群。”王勇说。

在曦望看来,推理GPU的竞争并不止于芯片本身,而在于能否将硬件能力稳定转化为可交付、可计价的推理算力。

3.曦望凭什么能站稳脚跟?

国产AI芯片已经是一个拥挤而残酷的赛道。

昇腾、摩尔线程、沐曦、寒武纪、亿铸、燧原等都已在某些层面证明了自己的实力,这意味着,目前的时间点竞争已充分激烈,对技术路线和资本竞争等关系公司战略的重大事项,决策的容错率会大大降低。

而面对国内外的竞争,曦望凭什么能站稳脚跟?

徐冰对于这个问题的回答简单而直接:“我们不是在做又一个GPU,而是从底层架构就为推理场景重新设计,彻底重写。

在徐冰看来,启望S3彻底抛弃了传统的训推一体GPU为训练准备的那些冗余设计,不追求峰值TFLOPS这种纸面数据,“我们是把真实业务场景中的每个token的成本,每个token的能耗,还有实实在在的稳定性,作为所有设计决策的根本出发点。”

芯片设计不能纸上谈兵,必须结合真实业务场景,满足各种客户需求。2025年全球大模型token的消耗量激增,其中推理消耗占了很大一部分比例,这种结构性改变也坚定了团队研发的方向。

过去的2025年,在徐冰看来是团队“最忙的一年”,整个团队几乎是“没日没夜全速研发”。

目前曦望已拥有三百多人的团队,聚拢了行业中一批芯片研发精英,他们来自英伟达、AMD、昆仑芯、商汤等。核心的技术骨干平均有15年的行业经验。徐冰形容这是“一支真正懂芯片,懂AI能落地的特种部队”。

「甲子光年」从曦望内部了解到,公司里有这样一句话:我们不做“向上管理”,我们要“求真务实”。

团队曾经去一家AI公司调研发现,这家AI公司的GPU的峰值使用率有85%,但是日均使用率只有28%。GPU的长期空闲率达到40%,每月浪费的算力成本,可以买两台新的服务器。

一个推理集群往往由众多的服务器组成的,这些服务器在不同的推理算力的需求下会呈现出一个问题——资源利用率低,而曦望就是要解决这样的问题。

此外,还有模型适配问题,这也是行业当中很多客户都会遇到的问题。曦望团队的解法是专门做一个MaaS(Model as a Service)平台,方便模型调用和定制优化。

从成功量产启望S1和S2,到发布S3,展示S4和S5的路径图,曦望在在一步步靠近AI推理时代。过去一年,国内已经有一些厂商把大模型的推理价格做到了百万token一元甚至几毛钱,曦望的目标是在这个基础上,把成本再压一个数量级,把“百万token一分钱”变成行业新基准。

徐冰介绍曦望的目标,图片来源:「甲子光年」拍摄

如果说启望S3回答的是“推理算力如何更便宜”,那么曦望与商汤科技、第四范式等生态伙伴探索的推理云平台,则试图解决“推理算力如何更好用”。

通过GPU池化与弹性调度,曦望将底层算力整合为统一的推理算力池,并以 MaaS(Model as a Service)作为核心入口,使企业无需关注底层硬件配置与集群运维,即可按需调用大模型推理能力。这一体系也成为“百万Token一分钱”推理成本合作的重要技术基础。

「甲子光年」了解到,曦望在过去一年内顺利完成了近30亿元战略融资,投资方的阵容也很强大,包括三一集团旗下华胥基金、范式智能、杭州数据集团、正大机器人、协鑫科技、游族网络、北京利尔等产业投资方,无极资本、IDG 资本、心资本、高榕创投、中金资本、普华资本、松禾资本、易方达资本、工银投资、海通开元、越秀产业基金、银泰投资、国元基金、粤民投、华民投等国内知名VC/PE机构,同时获得诚通混改基金、杭州金投、杭州高新金投等国资背景资本的加持。

当然,推理算力价值的实现离不开协同,需要芯片设计、系统集成、软件开发到产业应用的全链条协作。曦望在生态打造、商业化等方面还有很长一段路需要走。

与各类算力厂商和芯片厂商深度合作,成为现有算力系统的推理分流是曦望的一个务实的选择。

“曦望的使命只有一个,”徐冰说,“就是把大模型推理这件事做到极致。

(封面图来源:曦望)

相关内容

AI进化速递 | 混元图像...
①腾讯混元图像3.0图生图模型正式开源; ②阿里云通义正式开源发布...
2026-01-28 21:20:12
曦望,死磕AI推理成本|甲...
解析曦望新一代推理GPU芯片启望S3。 作者|王艺 编辑|王博 国...
2026-01-28 19:49:15
阿里云通义开源Z-Imag...
新榜讯 1月28日消息,阿里云通义正式开源发布了Z - Image...
2026-01-28 19:48:34
工信部:人工智能已渗透领航...
1月21日上午10时,国务院新闻办公室举行新闻发布会,介绍2025...
2026-01-28 19:20:17
观测云产品更新 | 应用性...
观测云更新 监控 面向海外站点,新增 Google Chat 为...
2026-01-28 17:48:25
原创 ...
最近看新闻,总觉得中美之间有点怪。嘴上互怼得厉害,心里却悄悄做着生...
2026-01-28 17:21:18

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...