AI“暴力美学”持续奏效,科技巨头竞相部署“十万卡集群”
创始人
2024-09-26 10:26:01
0

“万卡集群”已成为大模型军备竞赛的最低标配,科技巨头不满足于此,纷纷开启“十万卡集群”的AI大基建步伐。

9月25日的百度云智能大会上,百度宣布升级作为算力基础设施的百舸AI异构计算平台。百度集团执行副总裁、百度智能云事业群总裁沈抖说,新升级的百舸4.0已经具备了成熟的十万卡集群部署和管理能力。

百度云智能大会上,百度推出百舸4.0平台。图:杨柳

约一周前,阿里云在云栖大会宣布其单网络集群已扩展至十万卡级别。此前9月初,马斯克在社交平台披露,短短122天时间,旗下AI初创公司xAI部署完成10万张英伟达H100 GPU芯片组成的Colossus超算集群,而且未来几个月将翻倍至20万张卡。

沈抖预测称,大模型的Scaling Law(尺度定律)将在一段时间内持续有效,“很快就会有更多的十万卡集群出现”。

所谓Scaling Law,即AI的“暴力美学”,当数据量和参数规模增加,模型的性能随之提升。但指数级增长的训练数据量,又对底层算力基础设施提出考验。为了快速迭代训练大模型,“万卡集群”乃至“十万卡集群”就成了大模型军备竞赛的先决条件。

然而,超大规模的GPU算力集群面临成本高、难运维的挑战。据沈抖介绍,建一个“万卡集群”,单是GPU的采购成本就高达几十亿。一旦一张GPU出现故障,就会导致集群整体停摆,大量时间、成本浪费在故障恢复和数据回滚上。在模型训练阶段,稳定和高效是衡量GPU集群水平的“金指标”和“硬通货”。

沈抖介绍说,百舸4.0 会通过AI算法筛查集群状态,预测故障最有可能在什么地方发生,尽量避免把工作负载分配到可能发生故障的芯片上;同时借助故障秒级感知定位、Flash Checkpoint模型任务状态回滚等技术,大幅减少集群故障处置时间。

当智算集群规模来到十万卡级别,管理的难度会进一步加大,沈抖描述称,管理十万卡的难度与管理万卡有着天壤之别。他说,在物理空间方面,十万卡集群需要占据大概10万平方米空间,相当于14个标准足球场的面积;在能耗方面,每天则要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。

“这种对于空间和能源的巨大需求,远远超过了传统机房部署方式的承载能力,跨地域机房部署又会给网络通信带来巨大挑战。”沈抖表示,“十万卡集群”中的GPU故障将会非常频繁。Meta用1.6万张卡训练Llama 3时,每3小时就会出一次故障,推演到10万卡,意味着每30分钟训练就要中断一次,导致有效训练时长占比非常低。

为了应对这些运维问题,百度方面介绍说,百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN(High Performance Networking)高性能网络、10ms(毫秒)级别超高精度网络监控,以及面向“十万卡集群”的分钟级故障恢复能力。

采写:南都记者 杨柳

相关内容

全球首个!京东全栈开源Jo...
一场火灾发生的瞬间,监控系统可以实时发出警报;独居老人在家摔倒,A...
2026-06-22 17:47:51
东材科技涨6.68%,开源...
今日东材科技(601208)涨6.68%,收盘报79.83元。 2...
2026-06-22 17:47:10
美图“追风”AI
4款新品和4款升级版产品,美图近日拿出的8款产品,覆盖设计师社区、...
2026-06-22 17:47:06
AI浪潮下的另一种答案:T...
在这一轮AI 热潮中,市场的注意力大多集中在云端训练、推理集群和 ...
2026-06-22 14:39:48
AI进医院的AB面
早晨7点,山东第一医科大学第一附属医院(山东省千佛山医院)放射科,...
2026-06-22 14:39:18

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...