DeepSeek开源周第三日 发布高性能通用矩阵乘法库
创始人
2025-02-26 11:51:24
0

新京报贝壳财经讯(记者罗亦丹)北京时间2月26日,DeepSeek进行了其开源周第三日的发布——DeepGEMM,一个支持密集和MoE(专家混合模型)GEMM(通用矩阵乘法)的FP8 (8位浮点数)GEMM库,为V3/R1训练和推理提供支持。

据了解,通用矩阵乘法是许多高性能计算任务的核心,所以其性能优化也是大模型降本增效的重点。

DeepSeek表示,DeepGEMM在Hopper GPU(一种英伟达GPU架构)上最高可达到1350+FP8TFLOPS(每秒万亿次浮点运算),并且像教程一样简洁,可完全即时编译,其核心逻辑只有约300行代码,且在大多数矩阵尺寸上均优于专家调优的内核,并支持密集布局和两种MoE布局。

编辑 姜樊

校对 刘军

相关内容

河北发布生态环境监管AI大...
10月17日,2025中国生态环境AI+大会在石家庄召开。会上,河...
2025-10-19 07:45:36
AI智能体试水“抢购物券”...
今年以来,美国AI公司正在用“左脚踩右脚”的方式构建新的生态,试图...
2025-10-18 22:49:39
千里科技启动港交所IPO ...
汽势Auto-First丨刘天鸣 完成千里智驾并表后,千里科技迅...
2025-10-18 18:45:45
报告称中国生成式AI用户最...
据新华社消息,在2025(第六届)中国互联网基础资源大会上,中国互...
2025-10-18 14:17:14
开源!强效果,高性能,严隐...
作者 | OPPO AndesVL 团队 引言 当前端侧多模态大...
2025-10-18 11:45:01
通用型产品增长停滞,垂直赛...
新一季度的「AI 100」双榜单已经出炉。 AI产品正迎来竞争变数...
2025-10-18 11:18:39

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...