原创 寻找AI普惠时代的方舟:“水灵灵”的CPU驱动AI推理驶向深海
创始人
2024-09-12 08:52:19
0

在很长一段时间里,围绕GPU的抢购、囤货此起彼伏,人们对其每款新品都翘首以待,而CPU似乎已被遗忘在角落。

不过,根据科技发展史中屡试不爽的定律,“一家独大”的局面很难持久,对GPU强势地位的挑战如期而至,算力“去魅化”也拉开序幕。

第一波的领头羊是算力设备供应商,很多服务器厂商强调以“系统创新”提升集群效率,并得到存储、网络等领域厂商的呼应。它们想借助算力、存力、运力的协同效应,大幅降低对单一供应商的过度依赖。

第二波的推动者是云计算服务商和大模型厂商,通过类似多米诺骨牌式的连环降价,让AI算力和算法不再拒人千里,大模型应用的门槛显著降低。这在一定程度上打破了人工智能的神秘感,落入凡尘的AI更具亲和力。

事实上,上述变化折射出的是更宏大的主题——AI普惠时代已经来临,AI算力与通用算力之间的鸿沟会被逐渐填平,AI推理对算力的需求将超越AI训练。此时,真正的主角可以“水灵灵”地登场,几经波折的CPU有望上演“王者归来”的大戏。

这既是对CPU价值的重新评估,也是加速AI普惠进程的必由之路。尤值一提的是,作为应用普惠的开路先锋,AI推理已成为大模型落地的核心动力,这艘巨轮正带领千行百业驶向数字化转型的汪洋大海,而CPU恰是“底舱”中不可或缺的关键角色。

在充满不确定性因素的“深海”中,AI推理不得不面对风暴的冲击与暗礁的突袭,CPU能否发挥“压舱石”的重要作用?

打造AI推理新“硬核”:CPU的价值归位与崭新挑战

从众多AI巨头近期发布的最新一期财报来看,AI推理收入在其业务中的占比明显提升,且未来增速被普遍看好,AI推理对算力的总需求超越AI训练并不遥远。

这是AI加快渗透进程的信号,也为CPU施展身手提供了巨大舞台。由于AI推理并不推崇“大力出奇迹”,更强调持续运算与低延迟,兼具高性能、低能耗、高性价比等多重优势的CPU备受青睐。即使在GPU声势最鼎盛的时期,CPU在AI推理领域的价值也得到广泛认可。

当然,CPU的价值归位并非一帆风顺,其必须应对AI推理进化过程中衍生出的诸多挑战。一方面,AI推理的场景纷繁复杂,经常在不同的软硬件平台及云网边端间反复切换,对CPU在各类设备上的通用性与综合指标表现要求颇高;另一方面,大模型的演进使AI推理任务涉及大量复杂运算和尖端场景,需要频繁访问模型参数和中间数据,对CPU的性能、缓存、IO带宽带来严峻考验。

迈向AI推理新境界:CPU“三级驱动”实现全面跃迁

显而易见,单纯依靠性价比打天下的阶段一去不返,CPU要在AI推理大行其道的新时代谋求更多发展空间,必须完成核心能力的全面跃迁。

参考火箭系统在航空航天领域的演进轨迹,也许可以为CPU的进阶之路提供借鉴。为了使航天器达到第一宇宙速度,顺利进入运行轨道,三级火箭应运而生——通过每一级火箭系统接力燃烧,航天器的飞行速度不断加快,最终达成预期目标。

当下,AI推理的航船正从风平浪静的浅水区驶向“风浪越大鱼越大”的深水区,CPU作为算力底座的核心角色,只有实现类似火箭“三级动力”的蜕变升级,才能真正为各个行业的数智化转型保驾护航。

在大模型应用迈向纵深的背景下,更高的CPU频率是AI推理适应复合型工作负载需求的“一级动力”。借助AI推理实现业务创新是行业客户使用大模型的主要目标,这意味着CPU可能同时处理来自成千上万个源的数据推理请求,必然要求其在各种工作负载运行中提供更高的核心频率,最好能支持更多的核心数同时达到最高频率。

在打造“一级动力”的赛道上,第四代AMD EPYC显然处于领跑阵营。针对客户需求的痛点,第四代AMD EPYC采用最新的ZEN 4技术架构,时钟速率提高14%,每时钟周期执行指令数增加15%~24%——更高的核心频率促进CPU整体性能大幅改善,显著增强AI推理应对纷繁工作负载的能力。

当信息化、数字化与智能化需求叠加在一起,更快速高效的数据传输能力是CPU驱动AI推理的“二级动力”。很多行业客户为了赶上AI浪潮的节拍,要先弥补在信息化建设和数字化转型阶段的不足,重构以新一代CPU为核心的算力底座即是其必修课。在AI推理中,CPU担纲重任,其会与存储、网络以及其他硬件设备频繁交换数据,对I/O水平要求更高,且应具备出色的内存传输速度和指令集优化能力。

值得关注的是,第四代AMD EPYC拥有更强大的内存与I/O,引入DDR5内存并支持多达12个通道,其中Genoa家族所有型号均完整支持4800MT内存,Genoa插槽能够提供460.8 GB/s的理论峰值内存带宽,双路理论支持内存带宽最大可达920Gbps;同时,为应对AI推理中矩阵和向量计算的挑战,其具备灵活高效的AVX-512扩展指令集,支持BF16数据类型以提高吞吐量,双周期、256位流水线设计有助于提高AI推理的运行效率。

面对高性能计算、科学计算等缓存敏感型场景的挑战,更大的三级缓存是CPU助力AI推理攻坚克难的“三级动力”。在复杂场景的AI推理中,CPU的缓存能力往往成为“最短的木板”,制约相关任务的执行效率和完成效果。颇具开创性的三级缓存是破解难题的有效方式,能帮助行业客户扫除应用落地的障碍。

作为CPU核心技术创新的引领者,AMD不断打破三级缓存的天花板,在超越自我的同时达成客户预期。AMD第四代处理器“Genoa”系列除显著提升L2容量至每核心1MB外,保持每8个核心共享32M三级缓存;同时,Genoa-X提供每8个核心共享96M三级缓存,为AI推理业务实现“缓存自由”创造了必要条件。

CPU助推AI算力与通用算力汇流入海

站在更长远的视角,伴随人工智能通用化进程不断加快,传统通用算力与AI算力之间的融合正在成为新的潮流,而处在交汇点上的CPU无疑将扮演举足轻重的角色。

目前,基于以CPU为核心的通用服务器进行大模型推理,不再是什么新鲜事。越来越多的行业用户摒弃了“烧钱”模式,更多依托高性能CPU构建新型算力底座,合理平衡CPU与GPU的配置关系,真正享受到AI时代的普惠红利。

令人欣喜的是,CPU自身也没有停止进化的脚步。作为拥有高性能GPU、CPU及各种平台解决方案的行业领头羊,AMD始终走在CPU技术创新的前列,其第四代处理器包括Genoa、Genoa-X、Bergamo、Siena等系列,不仅在前面提到的各项核心指标上屡创佳绩,而且为云原生、边缘计算等细分领域提供量身定制的解决方案,打造出AI时代CPU的新标杆。

在数智新世界的入海口,AI算力通用化的灯塔已经点亮。这里不再是独角戏的舞台,CPU与GPU以及FPGA、TPU、ASIC等伙伴们将携手起舞,下一段航程更加精彩纷呈。

相关内容

别跟LLM太交心!斯坦福新...
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 小心!AI的...
2025-07-13 15:43:57
原创 ...
文/杨剑勇 英伟达再次创出世界纪录,市值突破4万亿美元大关,换算人...
2025-07-13 15:43:18
原创 ...
继泰柬“电话门”事件后,美国再度上演“录音门”,美媒曝光绝密录音,...
2025-07-12 22:12:23
上海中华职院:百人精培,瞄...
2025年,迁址上海崇明区的上海中华职业技术学院(简称“中华职院”...
2025-07-12 14:42:12
【央视快评】努力创作更多讴...
“新征程上,希望你们继续在崇德尚艺上作表率,带动广大电影工作者坚定...
2025-07-12 14:13:30
拍一部烧掉几亿的大烂片,最...
原标题:烂片有种经济上行的美 作者:谢明宏 编辑:李春晖 任何时代...
2025-07-12 14:12:28

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...