英伟达开源最新大模型Nemotron后,只有OpenAI o1一个对手了
创始人
2024-10-17 17:59:33
0

机器之心报道

编辑:杜伟、陈陈

英伟达不仅要做显卡领域的领先者,还要在大模型领域逐渐建立起自己的优势。

今天,英伟达又开源了一个性能超级强大的模型 —— Llama-3.1-Nemotron-70B-Instruct,它击败了 OpenAI 的 GPT-4o 等闭源模型和 Anthropic 的 Claude-3.5 sonnet 等开源模型。

从命名来看,显然 Llama-3.1-Nemotron-70B-Instruct 是基于 Llama-3.1-70B 打造而成。

从下图中大模型榜单可以看到, Llama-3.1-Nemotron-70B-Instruct 的性能仅次于 OpenAI 最新 o1 大模型了。

图源:https://x.com/itsPaulAi/status/1846565333240607148

目前,Llama-3.1-Nemotron-70B-Instruct 已经可以在线体验了。Starwberry 中有几个 r 这样的题目难不倒它。

图源:https://x.com/mrsiipa/status/1846551610199273817

不过有时也一本正经地胡说八道,比如「2.11 和 2.9 哪个大」。

体验地址:https://huggingface.co/chat/

不过英伟达也强调了,他们主要是提高模型在通用领域的性能,尚未针对数学等专业领域的表现进行调优,或许等待一段时间,模型就可以正确回答 2.11 和 2.9 哪个大了。

此外,英伟达还开源了 Nemotron 的训练数据集 HelpSteer2,包括如下:

  • 构建了 21362 个提示响应,使模型更符合人类偏好,也更有帮助、更符合事实、更连贯,并且可以根据复杂度和详细度进行定制;
  • 构建了 20324 个用于训练的提示响应,1038 个用于验证。

数据集地址:https://huggingface.co/datasets/nvidia/HelpSteer2

除了 Llama-3.1-Nemotron-70B-Instruct 之外,英伟达还开源了另一个 Llama-3.1-Nemotron-70B-Reward 模型。

模型合集地址:https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8

模型介绍

Llama-3.1-Nemotron-70B-Instruct 是英伟达定制的大型语言模型,旨在提高 LLM 生成的响应的有用性。

Llama-3.1-Nemotron-70B-Instruct 在 Arena Hard 基准上得分为 85.0,在 AlpacaEval 2 LC 基准上得分为 57.6,在 GPT-4-Turbo MT-Bench 基准上得分为 8.98。

截至 2024 年 10 月 1 日,Llama-3.1-Nemotron-70B-Instruct 在三个自动对齐基准中均排名第一,击败了 GPT-4o 和 Claude 3.5 Sonnet 等强大的前沿模型。

对于这一成绩,有网友表示,在 Arena Hard 基准上拿到 85.0 分,对于一个 70B 的模型来说,确实是件大事。

还有网友讨论说,用相同的提示测试 GPT-4o 和英伟达模型,所有的答案都是英伟达的模型好,并且是好很多的那种。

「加大题目难度,Llama-3.1-Nemotron-70B-Instruct 照样回答的很好。」

在训练细节上,该模型在 Llama-3.1-70B-Instruct 基础上使用了 RLHF 技术(主要是 REINFORCE 算法),并采用了 Llama-3.1-Nemotron-70B-Reward 和 HelpSteer2 偏好提示作为初始训练策略。

此外,Llama-3.1-Nemotron-70B-Reward 是英伟达开发的一个大型语言模型,用于预测 LLM 生成的响应的质量。该模型使用 Llama-3.1-70B-Instruct Base 进行训练,并结合了 Bradley Terry 和 SteerLM 回归奖励模型方法。

Llama-3.1-Nemotron-70B-Reward 在 RewardBench 榜单的 Overall 排名中表现最佳,并在 Chat(聊天)、Safety(安全)和 Reasoning(推理)排名中也有出色表现。

不过,想要部署该模型还需要一些先决条件,至少需要一台带有 4 个 40GB 或 2 个 80GB NVIDIA GPU 的机器,以及 150GB 的可用磁盘空间。想要尝试的小伙伴跟着官方给出的步骤进行部署即可。

参考链接:

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward

相关内容

ST中青宝:目前暂未开展A...
有投资者在互动平台向ST中青宝提问:“请问公司有没有专门的部门负责...
2026-02-25 21:49:57
英特尔再战AI,联手AI芯...
昔日芯片霸主英特尔,再次举起挑战 AI 霸主英伟达的旗帜。这一次,...
2026-02-25 17:50:19
豆神教育(300010.S...
格隆汇2月25日丨豆神教育(300010.SZ)在互动平台表示,公...
2026-02-25 17:20:25
软通动力AI Factor...
(全球TMT2026年2月25日讯)软通动力AI Factory打...
2026-02-25 13:51:21
阿里云上线Qwen3.5等...
此次上线的四款模型均为顶级开源模型。除夕开源的原生多模态模型Qwe...
2026-02-25 13:50:50
广西来宾:AI助力“甜蜜事...
新春时节,广西来宾的空气中弥漫着蔗糖的甜香。在兴宾区迁江镇,90后...
2026-02-25 11:22:00

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...