DeepSeek"开源周",连续掏出两大核心武器
创始人
2025-02-25 18:21:46
0

今天是DeepSeek“开源周”第二日,DeepSeek宣布开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。

昨天,DeepSeek则开源了代码库Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,针对可变长度序列作了优化。

MoE(混合专家架构)和MLA(多头潜在注意力机制)被认为是DeepSeek以低成本实现杰出表现的核心原因。

简单理解,MoE架构是由多个专注于垂直技能的专家模型分工协作来实现最终输出结果,训练成本和推理成本更低。有消息称,GPT-4就使用了MoE架构,由8个220B模型组成。但MoE架构的缺点之一是会增加通信成本。

DeepEP通信库就是针对通信环节的优化,其特点包括:高效、优化的全员沟通;节点内和节点间均支持 NVLink 和 RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生 FP8 调度支持;灵活的 GPU 资源控制,实现计算-通信重叠。

MLA则是让模型预测更远位置的token,从而增强语义理解能力。DeepSeek的Flash MLA专为英伟达Hopper GPU打造了高效MLA解码内核,特别针对变长序列进行了优化。

来源:观察者网

相关内容

热思考、冷静干!AI+零售...
烟火气是“一种生活感受”,从零售的角度它是由人、货、场共同构成,可...
2025-05-10 17:17:23
DeepSeek公开致谢腾...
DeepSeek近日公开感谢腾讯技术团队对其开源通信框架DeepE...
2025-05-10 10:46:52
RISC-V架构新突破!D...
Canonical携手DeepComputing,共同推出了名为D...
2025-05-10 10:17:43
以场景化思维重塑AI安全体...
在AI技术深度渗透网络安全领域的当下,攻防对抗已进入智能化博弈新阶...
2025-05-10 06:19:47
同比激增536.8%!AI...
文|DataEye研究院 昨日,QuestMobile发布了《2...
2025-05-09 18:45:50
英伟达开源代码大模型 基于...
5月9日,英伟达宣布开源其代码推理模型,包含32B、14B和7B三...
2025-05-09 16:47:23

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...