在 AI 需求带动本轮存储 “超级” 周期的情况下,存储行业在昨晚再次迎来大涨($Sandisk(SNDK.US)+27%,$美光科技(MU.US)+10%),而这主要是黄仁勋在 CES2026 上的演讲给原本火热的存储市场又添上了 “一把火”。
Source:Longport.app
首先我们回顾一下,黄仁勋在 CES2026 大会上的核心内容,一方面是谈物理 AI 的广阔前景和落地场景;另一方面就是 Rubin 架构的进展和提升。而本次存储领域的大涨,正是由 Rubin 架构中更大的存储需求带来的。
整体来看:$英伟达(NVDA.US)Rubin 中变化最大的就是,在 “算力层 + 网络层” 的基础上,又新增了 “存储和安全层”。下游需求的增长,无疑会加剧存储市场的 “供需失衡” 的状态。
Rubin 对存储的影响,具体细分:①HBM 符合预期。升级至 HBM4,但单 GPU 搭载的容量不变;②DDR 略好于预期。单 CPU 搭载的 DDR 量提升至原来的 3 倍,综合来看 2026 年大致对应关系是单卡 GPU 配置 0.5TB 的 DDR 量;③NAND 是最超预期的部分,新增的推理 “上下文存储平台”(ICMS 平台),通过利用 NAND 担任为 “外挂内存”,减轻 HBM 原有的压力。
整体来看,在本次老黄 CES2026 演讲后,HBM 的需求量预期未变;DDR 的需求量增加了 1EB 左右,对应供需缺口扩大 1% 左右;对 NAND 需求量直接影响是增加了 45EB 左右,对应的供需缺口将扩大 4-5% 左右。
由于 NAND 是最为受益的部分,从昨天至今的股价表现也能看出,闪迪和铠侠的股价涨幅更为明显,海力士、三星的股价表现相对更弱。
以下是海豚君关于 Rubin 及老黄在 CES2026 演讲的核心内容:
一、Rubin 架构对存储需求的影响:
从 Blackwell 到 Rubin,HBM 依然是 AI 服务器中最为核心的部分,不会被新增的存储层(NAND)所替代。随着推理模型越来越大,HBM 会有容量压力。而将一部分原本塞入 HBM 的 KV cache 迁移至 BlueField-4+NAND 上,一定程度上减轻了 HBM 的压力。
黄仁勋在演讲中提到 Rubin 将从 NVL144 改回 NVL72,实质上是一样的。因为此前 144 是以 die 的个数来计算,而这次 72 是以 GPU 个数(1 个 GPU=2 个 die)来计。因而,在下面的需求量考虑中,海豚君也用 NVL72 的口径来预估。
1.1 HBM 的影响:不可替代的刚需
相比于 Blackwell,Rubin 将使用 HBM4 芯片。虽然 HBM4 在单 GPU 带宽有望达到 22TB/s(是 HBM3E 的 2.8 倍),但单 GPU 的 HBM4 容量将和 HBM3E 同样为 288GB,增长主要来自于 GPU 出货量的带动,是符合市场预期的;
1.2 DDR 的影响:主要在 CPU 中负责系统控制、数据预处理与上下文管理
相比于 Grace,单颗 Vera CPU 的 DDR 需求量将提升至 1.5TB(是 Grace 的 3 倍),基于单个 NVL72(72GPU+36CPU)来看,大约对 DDR 的需求量为 54TB,是此前的 3 倍左右(Blackwell 约为 18TB)。
从市场对英伟达 CoWoS 的预期来看,2026 年英伟达的 CoWoS 中大约是 B300 和 Rubin 是 1:1,以平均值预估 2026 年单个 NVL72 对 DDR 的需求量约为 36TB。换算来看,大致对应关系是 1 个 GPU 需要 0.5TB 的 DDR(略好于市场预期,)。
结合当前市场预期的 2026 年 CoWoS 的总量来看,海豚君预估 2026 年 AI 服务器对传统 DDR 的需求将达到 91.9 亿 GB(9.2EB),同比增长 250%,比市场原有预期提升了 1EB 左右。
具体来看,AI 服务器在 CoWoS 产量提升和单台配置数量提升的带动下,2026 年 AI 服务器领域对传统 DDR 的需求增量将达到 66 亿 GB 左右(6.6EB),占 DRAM 整体市场供应量的 15-20%,这将直接侵蚀原有 PC、手机等领域的供应量。
1.3 NAND 的影响:用于系统启动和模型权重的预加载,Rubin 引入了 “推理上下文存储平台”
NAND 原本在 Blackwell 架构中,主要是用在系统中,负责系统启动和模型权重的预加载,单个 NVL72 大约需要是 500-1200TB 的容量(取中值 850TB)。
在本次老黄的演讲中,英伟达将在 Rubin 结构中新增 “推理上下文存储平台”(ICMS 平台),这是超预期的。新增的 ICMS 专用上下文存储,将 KV Cache 从 HBM 下沉至更具性价比的存储介质,释放 HBM 带宽用于计算,是推理成本降低 90% 的核心创新之一。
其中每个 Rubin GPU 可以额外扩展 16TB 的 NAND(作为 “外挂内存”),对于单个 NVL72 可以拓展 1152TB 的 NAND 需求。由于在 Rubin 结构中仍然需要 850TB 左右的 NVMe SSD,单个 NVL72 的合计 NAND 需求量将达到 2000TB 左右。
当前市场预估 2026 年英伟达 Rubin 的 CoWoS 量约为 35 万片,进而测算大约能生产 3.9 万台 NVL72 机柜。由于单个机柜将新增了 1152TB 的 NAND 需求(最超预期的部分),那么老黄本次演讲后让英伟达 Rubin 对 2026 年的 NAND 需求量将再次提升 44.8EB,这相当于 2025 年全球 NAND 供应总量的 4-5%,加大了供需缺口,给原本紧张的 NAND 供需格局又 “添了一把火”。
二、老黄的 CES2026:从 GPU 厂商转型为 AI 全栈基础设施提供商
英伟达 CEO 黄仁勋在 CES2026 发表主题演讲,最主要是围绕物理 AI 和 Vera Rubin 架构两大方面展开。
2.1 物理 AI-“ChatGPT 时刻”
AI 的发展过程:感知 AI->生成式 AI->AI 智能体->物理 AI
物理 AI 的定义:让 AI 理解重力、惯性、因果关系等物理定律,具备在真实世界中推理、规划、行动和解释的能力。不再仅仅是预先录制的程序,而是能实时 “思考” 的智能体。
技术原理:①通过合成数据生成(基于物理定律的基准真理)解决物理 AI 训练数据稀缺问题;②依赖三台计算机协同(训练 AI 的 GPU、推理用机器人计算机、模拟用 Omniverse 系统);③核心模型(Cosmos 世界基础模型、GR00T 人形机器人系统)实现物理世界理解与交互;
落地场景:①自动驾驶(Alpamayo 端到端训练,从摄像头输入到执行输出,支持推理与轨迹规划);②工业制造(西门子合作,数字孪生、工厂自动化、芯片设计模拟);③机器人(人形机器人、移动机器人、手术机器人的动作与环境交互);④天气预测(Earth 2 结合 ForecastNet/Cordiff 革新预测方式)。
2.2 NVIDIA Rubin 平台:最大增量 Context Memory
在本次 CES2026 大会上,老黄宣布 NVIDIA Rubin 平台已经进入全面生产阶段,并预计将于 2026 年下半年开始出货。
当前 AI 行业正经历从训练主导到推理主导的结构性转变:①训练需求趋于稳定,而推理需求呈指数级增长;推理 token 成本已成为 AI 应用商业化的最大瓶颈,决定了产品定价与盈利能力。黄仁勋在本次 CES2026 演讲中,提到了本次 Rubin 将通过 “六芯片全系统重构” 的方式,将推理 token 成本降至 Blackwell 平台的约 1/10。
NVIDIA Rubin 平台将由6 款全新的定制芯片(Vera CPU+Rubin GPU+ConnectX-9+BlueField-4+NVLink 6 Switch+Spectrum-6)组成。具体来看,英伟达从 Blackwell 架构到 Rubin 架构,在整体结构上实现了从 “算力层 + 网络层” 升级成了 “算力层 + 网络层 + 存储与安全层”。其中存储与安全层是在 Rubin 架构下最为明显的增量,这也是带动昨夜存储大涨的主要原因。
1)算力层:核心依然是 Vera CPU+ Rubin GPU。
①Vera CPU:专为大规模 AI 工厂的代理推理(Agentic Reasoning)设计,承担模型协同、任务拆解与算力分配的 “调度” 角色。
Vera CPU采用 88 个定制化 Olympus 核心,支持空间多线程(Spatial Multi-Threading),176 个全性能线程。具有 1.8TB/s NVLink-C2C 互连速率、1.5TB LPDDR5X 系统内存(为前代 Grace CPU 的 3 倍),内存带宽 1.2TB/s;
②Rubin GPU:还是超大规模模型训练与高吞吐量推理的“算力引擎”。
Rubin GPU的推理算力为 50 PFLOPS(NVFP4 精度下,为 Blackwell GPU 的 5 倍),训练算力为 35 PFLOPS(NVFP4 精度下,为 Blackwell 的 3.5 倍)。搭载的 HBM4 内存带宽将达到 22TB/s(为 Blackwell 的 2.8 倍),NVLink 带宽也将是单 GPU 3.6TB/s(为 Blackwell 的 2 倍)。
2)网络层:ConnectX-9+ Spectrum-6 的“AI 以太网”
①ConnectX-9负责处理节点间的 AI 流量,解决传统以太网在 AI 场景下的 “高延迟、易拥堵” 问题。具有 800Gb/s 以太网速率(单端口),支持 200G PAM4 串并转换技术;
②Spectrum-6负责连接数千个 Rubin 机架,支持吉瓦级数据中心的规模化部署。支持 128 个 800Gb/s 或 512 个 200Gb/s 端口,实现 102.4Tb/s 的可扩展交换架构。
3)存储与安全层(新增):BlueField-4
当 AI 服务器的重心从训练侧转向推理侧的过程中,明显遇到了 AI 推理阶段 “上下文内存不足” 的问题。针对于这一问题,英伟达在 Rubin 结构中增加了 BlueField-4 芯片,来承担起存储卸载、安全隔离、KV 缓存管理三大角色。
通过 BlueField-4,Rubin 平台实现了机架级 KV 缓存共享池和安全隔离:
a)每台 BlueField-4 可管理 150TB 上下文内存,为每个 Rubin GPU 额外扩展 16TB 的 NAND(作为 “外挂内存”),满足 10 万字长文档理解、数小时多轮对话等场景;
b)与传统存储相比,KV 缓存访问速度提升 5 倍,每秒 Token 处理量(推理吞吐量)和能效同步提升 5 倍,也能避免 GPU 因等待数据空转的问题;
c)通过高级安全可信资源架构(ASTRA)构建系统级安全屏障,解决 “数据隐私” 与 “多租户隔离” 难题:实现全链路加密、多租户隔离和可追溯性。
整体来看,从黄仁勋在本次 CES2026 的演讲来看,英伟达将从 GPU 厂商转型为 AI 全栈基础设施提供商。而公司在 AI 领域也已经开始了全栈布局:①芯片层(Vera CPU、Rubin GPU、Orin/Thor 芯片);②硬件系统层(Vera Rubin 超级计算机、DGX Cloud);③模型层(NeMo Tron、Cosmos 等开源基础模型 + 垂直领域模型);④工具层(NeMo 系列库、蓝图构建框架);⑤生态层(联合 Palantir、西门子等企业)。