英伟达发布Llama-3.1-Nemotron-51B AI 模型
创始人
2024-09-25 14:59:44
0

IT之家 9 月 25 日消息,英伟达 9 月 23 日发布博文,宣布推出 Llama-3.1-Nemotron-51B AI 模型,源自 Meta 公司的 Llama-3.1-70B,不过创新使用神经架构搜索(NAS)方法,建立了一个高度准确和高效的模型。

Llama-3.1-Nemotron-51B 简介

Llama-3.1-Nemotron-51B AI 模型将于 Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模型,共有 510 亿参数。

该 AI 模型主要采用了神经架构搜索(NAS)技术微调,平衡性能和效率,在高工作负荷下,只需要一片 H100 GPU 即可运行,大大降低了内存消耗、计算复杂性以及与运行此类大型模型相关的成本。

英伟达认为这种方式在保持了出色的精度前提下,显著降低了内存占用、内存带宽和 FLOPs,并证明可以在创建另一个更小、更快的变体来加以推广。

Llama-3.1-Nemotron-51B 性能

相比较 Meta 的 Llama-3.1-70B 模型,Llama-3.1-Nemotron-51B 在保持了几乎相同的精度情况下,推理速度提高了 2.2 倍。

准确率能效

MT BenchMMLUText generation(128/1024)Summarization/ RAG (2048/128)Llama-3.1- Nemotron-51B- Instruct8.9980.2%6472653 Llama 3.1-70B- Instruct8.9381.66%2975339 Llama 3.1-70B- Instruct (single GPU)——1274301 Llama 3-70B8.9480.17%2975339效率和性能方面的突破

开发 LLM 过程中面临的主要挑战之一是如何平衡精度与计算效率。许多大规模模型都能提供最先进的结果,但却需要耗费大量的硬件和能源资源,这限制了它们的适用性。

英伟达的新模型在这两个相互竞争的因素之间取得了微妙的平衡。

Llama-3.1-Nemotron-51B 实现了令人印象深刻的精度与效率权衡,减少了内存带宽,降低了每秒浮点运算次数 (FLOP),并减少了总体内存占用,同时不影响模型执行推理、总结和语言生成等复杂任务的能力。

改进工作量管理,提高成本效益

Llama-3.1-Nemotron-51B 的一个突出特点是能够在单个 GPU 上管理更大的工作负载。该型号允许开发人员在更具成本效益的环境中部署高性能 LLMs,在一个 H100 设备上运行以前需要多个 GPU 才能完成的任务。

Llama-3.1-Nemotron-51B 模型还减少了内存占用,在推理过程中可以在单个 GPU 上运行 4 倍以上的工作负载,从而带来了一系列新的机遇。

架构优化:成功的关键

Llama-3.1-Nemotron-51B 的成功主要归功于一种新颖的结构优化方法。传统上,LLMs 是使用相同的块构建的,这些块在整个模型中重复出现。

这虽然简化了构建过程,但也带来了效率低下的问题,特别是在内存和计算成本方面。

英伟达通过采用 NAS 技术来优化推理模型,从而解决了这些问题。该团队采用了分块蒸馏过程,即训练更小、更高效的学生模型(student model),以模仿更大的教师模型(teacher model)的功能。

通过完善这些学生模型并评估其性能,英伟达开发出了 Llama-3.1 版本,在大幅降低资源需求的同时,还能提供类似的准确度。

Puzzle 算法和知识蒸馏

Llama-3.1-Nemotron-51B 有别于其他模型的另一个关键组件,就是 Puzzle 算法。

该算法对模型中的每个潜在区块进行评分,并确定哪些配置能在速度和精度之间取得最佳平衡。

跑分Llama-3.1 70B-instructLlama-3.1-Nemotron-51B- Instruct准确率winogrande85.08%84.53%99.35%arc_challenge70.39%69.20%98.30%MMLU81.66%80.20%98.21%hellaswag86.44%85.58%99.01%gsm8k92.04%91.43%99.34%truthfulqa59.86%58.63%97.94%xlsum_english33.86%31.61%93.36%MMLU Chat81.76%80.58%98.55%gsm8k Chat81.58%81.88%100.37%Instruct HumanEval (n=20)75.85%73.84%97.35%MT Bench8.938.99100.67%

通过使用知识蒸馏技术,Nvidia 缩小了参考模型(Llama-3.1-70B)与 Nemotron-51B 之间的精度差距,同时显著降低了训练成本。

场景Input/Output Sequence LengthLlama-3.1- Nemotron- InstructLlama-3.1-70B-InstructRatioLlama (TP1)Chatbot128/1285478 (TP1)2645 (TP1)2.072645Text generation128/10246472 (TP1)2975 (TP4)2.171274Long text generation128/20484910 (TP2)2786 (TP4)1.76646System 2 reasoning128/40963855 (TP2)1828 (TP4)2.11313Summarization/ RAG2048/128653 (TP1)339 (TP4)1.92300Stress test 12048/20482622 (TP2)1336 (TP4)1.96319

IT之家附上参考地址

相关内容

【一周连连看】推动大模型从...
Hi,假期快乐。 本周,你将看到: 1、AI暑期营火了 2、硅谷,...
2026-06-21 20:19:17
CBVI:2026 中国品...
CBVI:2026 中国品牌AI可见度指数 China Brand...
2026-06-21 19:12:58
AI 知识付费“出海”:一...
文 | wiwi AI 浪潮里,最先赚到钱的人,未必是最懂 AI...
2026-06-21 14:04:50
阿里合伙人调整:AI科学家...
阿里巴巴(HK09988,股价104.9港元,市值2.01万亿港元...
2026-06-21 12:06:30
苹果macOS 27强化透...
IT之家 6 月 10 日消息,科技媒体 9to5Mac 昨日(6...
2026-06-21 12:05:15
英特尔 AMD 世纪破冰完...
科技媒体 Wccftech 昨日(6 月 19 日)发布博文,报道...
2026-06-20 18:26:39

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...