华创证券:DeepSeek开源周发布五大AI基础优化方案
创始人
2025-03-03 11:21:35
0

财中社3月3日电事项:

2025年2月24日至2025年2月28日,DeepSeek举行为期五天的“开源周”,连续开源五个软件库,旨在以完全透明的方式与全球开发者社区分享其在通用人工智能(AGI)领域的研究进展。五个软件库向业界展示了一套重塑AI基础设施效率的全景方案,涵盖底层加速解码、专家并行通信、核心矩阵运算、分布式训练的流水线优化、数据处理系统的构建,共同构筑了一个面向大规模AI的高性能基石。

华创证券发表评论:

显存的“节流阀”:FlashMLA是一种专为NVIDIAHopper架构GPU优化的高效注意力解码内核,旨在提升大规模语言模型(LLM)在推理阶段的性能,尤其在处理可变长度序列时表现突出。FlashMLA能自行调配计算资源,通过动态资源分配优化显存使用,在H800集群上达到3000GB/s的内存限制性能和580TFLOPS的计算限制性能,实现了3倍显存利用率提升。

通信的“智能交通系统”:DeepEP是首个用于MoE(混合专家模型)训练和推理的开源EP通信库,它解决了MoE的通信瓶颈,支持优化的全对全通信模式,使数据能够在各个节点间高效传输。

矩阵运算的“编译器”:DeepGEMM作为矩阵乘法加速库,为V3/R1的训练和推理提供支持。DeepGEMM采用了DeepSeek-V3中提出的细粒度scaling技术,将FP8引入GEMM内核,仅用300行代码就实现了简洁高效的FP8通用矩阵乘法。DeepGEMM支持普通GEMM以及专家混合(MoE)分组GEMM,在HopperGPU上最高可达到1350+FP8TFLOPS(每秒万亿次浮点运算)的计算性能,在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优,且安装时无需编译,通过轻量级JIT模块在运行时编译所有内核。

并行训练的“指挥”:DualPipe和EPLB旨在解决大模型分布式训练中的并行调度和负载均衡问题。DualPipe是一种用于V3/R1训练中计算与通信重叠的双向管道并行算法,通过实现向前与向后计算通信阶段的双向重叠,将硬件资源利用率提升超30%,减少资源浪费。EPLB是一种针对V3/R1的专家并行负载均衡器。基于混合专家(MoE)架构,它通过冗余专家策略复制高负载专家,并结合启发式分配算法优化GPU间的负载分布,减少GPU闲置现象。

AI专属的分布式文件系统:3FS是一个专为AI训练和大数据处理设计的高性能并行分布式文件系统,能实现高速数据访问,提升AI模型训练和推理的效率。性能方面,3FS在180节点集群中实现了6.6TiB/s的聚合读取吞吐量;在25节点集群的GraySort基准测试中达到3.66TiB/min的吞吐量;每个客户端节点在KVCache查找时可达到40+GiB/s的峰值吞吐量。

相关内容

数学能力对标IMO银牌,蚂...
封面新闻记者 张越熙 10月14日凌晨,蚂蚁集团正式推出万亿参数思...
2025-10-16 11:47:06
达利欧:欢迎大家留下有关黄...
钛媒体App 10月16日消息,桥水基金创始人达利欧:虽然我长期以...
2025-10-16 07:44:02
终端 AI 奇点已至,英特...
导语:英特尔正通过其XPU混合架构、AI算力以及开放的软件生态来引...
2025-10-15 23:15:42
8大AI技术、8大AI体验...
10月15日,全球领先的AI终端生态公司荣耀正式发布了备受期待的年...
2025-10-15 22:22:07
中贝通信与内蒙古联通达成战...
据中贝通信(603220.SH)官微消息,10月11日下午,中贝通...
2025-10-15 13:49:08
为 AI“降温”:微软亮出...
IT之家 10 月 15 日消息,微软昨日(10 月 14 日)发...
2025-10-15 11:45:14

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...