发展AI网络面临的四个关键技术
创始人
2024-08-14 12:08:49
0

AI大模型时代,大模型参数量和训练集规模大幅增加,仅靠GPU芯片单体算力的提升已经不能满足需求,业界目光正从单体算力转向了系统架构层面的创新。其中,底层核心技术——网络,成为关键突破口,全球各大公司纷纷进行相关产品技术的研发。AI网络技术的角逐正在展开。在近日举办的“2024开放计算中国峰会”上,英伟达网络高级总监宋庆春介绍了AI网络的四大关键技术:端到端的RDMA流量动态路由、AI云上AI业务的性能隔离、网络计算和网络数字孪生。

为了帮助客户在云环境中构建生成式AI或AI工作负载,提升网络性能,英伟达推出了新的网络平台,即加速以太网平台NVIDIA Spectrum-X。Spectrum-X平台并非是一个单产品的形态,而是涉及到Spectrum-4以太网交换机、BlueField-3 DPU、LinkX 线缆及模块和相关软件,能够为生成式AI在云端提供规模化的能力。

Spectrum-X的创新点有很多,动态路由就是其中之一。当前国内数据中心中,通用算力仍占算力资源的绝大多数。但是随着应用场景的变化,生成式AI云将成为数据中心发展的新趋势。生成式AI云需要有很强的算力和云的灵活性。为了解决问题,英伟达推出面向AI的以太网络,针对AI业务进行端到端的优化。端到端的RDMA流量动态路由可以让网络传输效率相比传统的以太网络提升1.6倍,实现端网协同,提升网络拥塞问题。RDMA技术可以通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和上下文切换的开销,因而能解放内存带宽和CPU周期用于改进应用系统性能。

性能隔离技术也很重要。AI云上往往出现多个租户同时运行应用程序的情况,而且每个租户又有可能运行多个任务。 如何让多个任务相互隔离,且不仅任务之间相互隔离,运行任务的时候性能也相互隔离,每个任务都能实现和运行单一任务一样的性能?这就需要用到性能隔离技术。该技术基于先进的拥塞控制技术,解决了由于一个AI应用的突发式的Incast通信造成的网络拥塞影响其它应用性能的问题,避免了牺牲流在云上的出现。这个技术在InfiniBand上多年以前就实现了,英伟达把性能隔离技术移植到Spectrum-X平台,实现了以太网云上的业务性能隔离。

网络计算则是指通过计算机网络进行计算的方式,它将计算任务分配给多个网络节点,并协同完成计算任务。网络计算的特点则主要体现在其分布式和协同性。在数据存储方面,网络计算将数据分散存储在多个节点上,这就使得数据更加安全可靠,且能够更好地应对并发访问。在传输技术方面,网络计算采用高速数据传输技术,使得大规模数据的处理和传输变得更加高效。生成式AI云往往面临资源利用率问题、长尾问题、多任务问题,网络计算可以有效解决。

网络数字孪生是物理网络的虚拟表述,基于数据、模型和接口对物理网络进行分析、诊断、仿真和控制,从而实现与物理网络之间的实时交互映射。借助数字孪生网络平台,运营商可以很好地模拟、选择、优化解决方案,最终将它们部署到实际网络中,这将降低对实际网络的影响,减少一定的安全风险。同时,数字孪生网络结合大数据处理和建模技术可实现对现状的评估、对过去的诊断和对未来的预测,模拟各种可能性,提供更全面的决策分析,有助于网络实现预测性运维。现在的AI云规模通常都很大,投入也非常大。 如果直接构建一个物理的系统,在物理系统上做Debug的成本非常高。 先构建AI数据中心的数字孪生虚拟数据中心,预先进行配置、调试、优化、测试,可以有效降低成本。

相关内容

国泰海通:维持海外AI算力...
国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出,O...
2026-06-01 00:54:38
AI独角兽MiniMax要...
IT之家 5 月 31 日消息,人工智能公司 MiniMax Gr...
2026-06-01 00:51:13
制造业大市如何拥抱AI?绍...
“此次圆桌研讨凝聚起产业发展共识,后续浙江将持续整合各方资源,汇聚...
2026-05-30 05:50:45
鸿蒙生态设备超13亿台,开...
PChome 5月28日消息,2026开源鸿蒙开发者大会正式召开,...
2026-05-30 05:44:37
AI助丘陵岗坡地小麦亩产破...
5月27日,南京市江宁区溪田农场小麦田埂上,传来消息:镇麦18地块...
2026-05-28 21:16:25
仁宝电脑与GMI Clou...
(全球TMT2026年5月28日讯)5月28日,仁宝电脑宣布,与美...
2026-05-28 21:09:59

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...