近日,京东云JoyBuilder模型开发平台迎来全新升级,成功支撑业界顶尖模型GR00T N1.5的千卡训练,成为行业首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台,且训练效率较开源社区版本提升3.5倍。基于软硬件深度调优和算法层面的突破,大幅提升了模型训练效率与稳定性,1亿+数据的千卡训练时间从15小时缩短至22分钟,加速具身智能迈向规模化落地。
1、JoyBuilder三大优势,全面加速具身智能模型训练
近年来,具身智能成为AI领域的重要研究方向,但训练一个高效的具身模型,需要同步处理图像、文本和连续动作信号等众多环节,在工程落地方面存在着数据供给读取慢、算力效率低下,以及数据预处理和存储I/O与GPU计算等多个环节未能有效协同产生的性能瓶颈,是具身智能从实验室走向规模化落地的最大挑战。
围绕具身智能模型训练,京东云AI Infra及相关团队基于JoyBuilder模型研发平台进行了全栈优化:
在具身数据链路优化方面,通过重构具身数据预处理与加载流程,JoyBuilder平台实现CPU数据处理与GPU计算异步执行,减少等待时间。针对海量具身小数据文件,自研的高性能并行文件系统云海JPFS通过分布式元数据管理与智能预取,支持高并发访问。在1024卡集群上,读取带宽超过400GB/s,保障数据持续高速供给。
在具身模型计算优化方面,针对主流开源的VLA(视觉-语言-动作)模型的计算特点从Attention层、Token裁剪和训练后量化等多方位极致优化,全方位提升模型的训练效率。
在具身模型基础设施方面:通过搭建3.2T RDMA后端网络,基于多轨道优化、拓扑感知调度与智能震荡抑制,保障千卡间集合通信的高吞吐与低延迟,并在单点故障时快速恢复,支持长周期训练稳定运行。同时,基于云原生的AI数据湖优化了数据调度与流水线,提升端到端处理效率。
2、行业首家支持具身模型千卡级开源训练框架
具身智能的发展依赖于算法、数据、算力及基础设施的系统化协同,京东云JoyBuilder模型开发平台,基于在全链路数据处理、模型计算效率和AI基础设施等的全面优化,支持业界当前最主流的LeRobot训练数据最新协议,并成为行业首家支持具身模型千卡级开源训练框架的AI开发平台。
首先,支持业界最广泛的训练数据新协议。早期LeRobot V2.1数据协议采用“单 episode 单文件”设计,大规模样本训练时,海量小文件易导致数据加载瓶颈和存储压力。京东云JoyBuilder平台支持一键升级至“多 episode 合并分片”的V3协议,同时解决原生框架训练过程中数据链路低效问题,经过并行流水线和高效索引查询优化,将训练数据供给速度提升超10倍,显著提升云侧算力利用率和训练效率,满足大规模分布式训练需求。
其次,作为行业首家支持具身模型千卡级的开源训练框架的AI开发平台,京东云JoyBuilder基于开源LeRobot框架,首次实现GR00T模型的千卡分布式高效训练,训练效率较开源社区版本提升3.5倍,1亿+数据千卡训练时间从15小时缩短至22分钟、提速40倍,大幅降低了千卡训练的使用门槛与运行成本。
第三,基于对主流开源具身VLA模型效率的极致优化,采用动态计算优化,引入变长Flash-Attention与Data Packing技术、训练提速188%;仅对有效token进行计算,减少填充带来的算力损耗,Token裁剪优化训练提速165%以上;使用训练后细粒度FP8量化,在基本保持模型精度前提下,将权重压缩超过36%、提速140%以上。
当前,基于京东集团复杂场景实践,京东云已经构建了一站式大模型产品矩阵,从底层的智算基础设施,到中间层的模型服务和工具,再到上层的Agent应用开发,支持具身智能企业快速部署大模型及AI应用,共同推动机器人更好地理解和服务物理世界,开启人机协作的新篇章。
来源:金融界资讯