老黄入局吃龙虾!英伟达发布最强开源Agent推理模型
创始人
2026-03-12 22:46:51
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

英伟达正式杀进龙虾养殖场,带着“最强开源龙虾模型”走来了!

刚刚,英伟达发布并开源了120B参数的MoE模型 Nemotron 3 Super

在评估OpenClaw智能体控制能力的PinchBench测试中,这个模型一举拿下85.6%的高分,强势空降同类开源模型榜首。

另外,在Artificial Intelligence Index中,Nemotron 3 Super也狂揽37分,直接甩开得分33分的GPT-OSS。

除了这个“龙虾搭档”,英伟达也开始在开源模型上全面发力了。

最新财务文件曝光,英伟达已经悄悄备好了 260亿美元(约合1789亿人民币)巨资,将在未来五年内将这笔充足弹药全盘倾注于构建开源AI模型。

百万上下文,5倍吞吐量

作为主攻多智能体协同的模型,Nemotron 3 Super原生支持 100万token的上下文窗口,为智能体在应对复杂多步流程时提供了不可或缺的长期记忆空间。

不仅文本处理容量庞大,它的运转效率也实现了大幅度跨越, 吞吐量直接提升至上一代Nemotron Super的5倍以上

同时,在处理代码和工具调用等结构化生成任务时,Nemotron 3 Super 最高能实现3倍的实际推理提速

在8k输入与64k输出的特定运行设置下,它的推理吞吐量达到了GPT-OSS-120B的2.2倍。

落地到具体的实操基准测试,这台新模型在代码攻坚上给出了直观的数据对比。

在软件工程基准SWE-Bench中,它搭配OpenHands框架跑出了60.47%的准确率,而对标的GPT-OSS成绩为41.9%。

面对考验底层控制能力的终端操作环境,模型的发挥依然扎实,在Terminal Bench的困难子集测试里,它以25.78%的得分,略微超过了GPT-OSS的24.00%。

当然,模型的常识推理水准也经受住了考验。在MMLU-Pro测试中它拿下了83.73分,相比GPT-OSS的81.00分实现了进一步提升。

在模拟真实世界运作的复杂业务场景里,它的落地能力同样得到了验证,在包含航空以及零售和电信三大领域的TauBench V2测试中,它交出了61.15%的平均成绩。

面向Blackwell架构优化

Nemotron 3 Super能够在实测中表现出色,主要归功于其对模型架构的针对性优化。

为了在处理百万级上下文时兼顾效率与精度,该模型采用了 混合Mamba-Transformer架构

这种设计交织使用了具备线性时间复杂度的Mamba-2层来处理长序列任务,并在关键深度插入了Transformer全局注意力层,以确保模型在处理海量信息时仍能实现精准的关联检索。

在模型规模的扩展上,为了解决传统混合专家架构在通信和计算上的瓶颈,模型引入了 Latent MoE架构

这项技术在进行路由决策前,先将token投影到一个压缩的低秩潜空间中进行降维处理。

这种方式使得模型能够在维持同等推理成本的前提下,直接调用四倍数量的专家网络,从而实现了更精细的专业化分工。

为了进一步提升生成速度,模型还原生应用了 多token预测技术。

与逐个预测token的传统模式不同,Nemotron 3 Super通过共享权重设计,在单次前向传递中即可并行预测未来的多个token。

这种机制不仅强化了模型对长程逻辑结构的理解,还为其带来了内置的投机解码能力,显著缩短了代码编写和工具调用等复杂任务的生成耗时。

英伟达应用深度学习研究副总裁Bryan Catanzaro介绍,这正是模型响应速度快的原因之一。

此外,模型还在硬件层面进行了深度适配, 采用了原生NVFP4格式进行预训练

相比先训练再量化的常规路径,这种在25万亿个token上进行的低精度预训练,让模型从起步阶段就完全适应了Blackwell架构的算力特性。

最终,模型在B200芯片上跑出了比H100快四倍的推理速度,在极大降低内存需求的同时,依然维持了稳健的准确率表现。

Agent能力针对性训练

为了让Nemotron 3 Super真正具备执行任务的智能体能力,英伟达在后训练阶段通过多层级的加固策略对其进行了全方位打磨。

在SFT阶段,研发团队采用了两阶段训练工艺,第一阶段 通过标记级平均损失建立推理基础,第二阶段 切换为样本级平均损失,有效解决了长输入场景下的性能降级问题,确保模型在处理海量信息时依然能给出精准的短输出。

针对实际应用中的智能体命令行交互,英伟达构建了一个 包含2万个初始查询的种子任务集,并利用模型作为裁判进行了精细过滤,最终沉淀出1.5万个核心合成任务。

通过从高性能模型中蒸馏操作轨迹,Nemotron 3 Super成功将复杂的终端交互知识内化为自身的原生技能。

进入强化学习阶段后,模型被投入到NeMo Gym平台的21种真实环境配置中进行高强度“拉练”。

这里的考核标准不再是简单的对话满意度,深入到了工具调用的准确性、功能代码的可执行性以及复杂计划的完整性等核心维度。

针对门槛极高的软件工程任务,模型还经历了专门的SWE-RL阶段,在隔离的容器环境中通过不断的执行反馈来修正自身的逻辑漏洞。

此外,为了在追求效率的同时避免模型在陌生领域出现偏差,英伟达还引入了PivotRL技术。

这种方法在智能体编程和搜索等关键领域,通过重点强化专家轨迹中那些不确定性较高的决策点,提升了模型在多步工作流中的行为稳定性,有效遏制了长程任务中常见的推理漂移风险。

260亿美元投向开源模型

最新开源模型强势登场之际,英伟达更远大的开源计划也已曝光:在未来五年内全盘倾注260亿美元巨资用于构建开源AI模型,并借此在自家的超级计算机级数据中心里搞一场极限拉练。

这笔投入不仅是为模型研发准备的充足弹药,更是为了通过跑起这些自家优化的开源模型,对计算、存储和网络性能进行全方位的压力测试。

随后,这些从实战中压榨出的宝贵数据,将被直接拿来反哺并规划未来的硬件架构路线图,真正实现由软件实操来定义硬件进化的技术路径。

在资源输出端,英伟达这次也表现得毫无保留,对外全面开放了模型的全参数权重,以及训练、评估配方和详细的部署手册。

这种慷慨的行为背后,也有着英伟达更高维度的谋划——通过亲手推动整个开源生态的强健发育,引导全球开发者将创新的根基更加牢固地绑定在自家的技术底座之中。

GitHub:

https://github.com/NVIDIA-NeMo/Nemotron/tree/main/usage-cookbook/Nemotron-3-Super

技术报告:

https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

参考链接:

[1]https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/

[2]https://www.wired.com/story/nvidia-investing-26-billion-open-source-models/

相关内容

AI新物种,迎来生态破局时...
中国AI硬件大爆发, 谁在打通“技术-销量”闭环 文|徐鑫 编|任...
2026-03-12 22:50:51
MOSI.AI推出革命性音...
来自MOSI Intelligence、上海创新研究院和复旦大学的...
2026-03-12 22:50:23
【西街观察】“龙虾”打破A...
AI爆款年年有,但最新的主角显然换了剧本。当大模型和人形机器人还在...
2026-03-12 22:49:21
飞猪AI大佬刘洪敏离职,曾...
飞猪AI产品负责人刘洪敏被曝离职,阿里年内又一P9级技术高管出走,...
2026-03-12 22:47:01
老黄入局吃龙虾!英伟达发布...
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达正式...
2026-03-12 22:46:51
周鸿祎:鼓励开源能够促进国...
钛媒体App 3月12日消息,360集团创始人周鸿祎在360龙虾安...
2026-03-12 22:42:50

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...