发展AI网络面临的四个关键技术
创始人
2024-08-14 12:08:49
0

AI大模型时代,大模型参数量和训练集规模大幅增加,仅靠GPU芯片单体算力的提升已经不能满足需求,业界目光正从单体算力转向了系统架构层面的创新。其中,底层核心技术——网络,成为关键突破口,全球各大公司纷纷进行相关产品技术的研发。AI网络技术的角逐正在展开。在近日举办的“2024开放计算中国峰会”上,英伟达网络高级总监宋庆春介绍了AI网络的四大关键技术:端到端的RDMA流量动态路由、AI云上AI业务的性能隔离、网络计算和网络数字孪生。

为了帮助客户在云环境中构建生成式AI或AI工作负载,提升网络性能,英伟达推出了新的网络平台,即加速以太网平台NVIDIA Spectrum-X。Spectrum-X平台并非是一个单产品的形态,而是涉及到Spectrum-4以太网交换机、BlueField-3 DPU、LinkX 线缆及模块和相关软件,能够为生成式AI在云端提供规模化的能力。

Spectrum-X的创新点有很多,动态路由就是其中之一。当前国内数据中心中,通用算力仍占算力资源的绝大多数。但是随着应用场景的变化,生成式AI云将成为数据中心发展的新趋势。生成式AI云需要有很强的算力和云的灵活性。为了解决问题,英伟达推出面向AI的以太网络,针对AI业务进行端到端的优化。端到端的RDMA流量动态路由可以让网络传输效率相比传统的以太网络提升1.6倍,实现端网协同,提升网络拥塞问题。RDMA技术可以通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和上下文切换的开销,因而能解放内存带宽和CPU周期用于改进应用系统性能。

性能隔离技术也很重要。AI云上往往出现多个租户同时运行应用程序的情况,而且每个租户又有可能运行多个任务。 如何让多个任务相互隔离,且不仅任务之间相互隔离,运行任务的时候性能也相互隔离,每个任务都能实现和运行单一任务一样的性能?这就需要用到性能隔离技术。该技术基于先进的拥塞控制技术,解决了由于一个AI应用的突发式的Incast通信造成的网络拥塞影响其它应用性能的问题,避免了牺牲流在云上的出现。这个技术在InfiniBand上多年以前就实现了,英伟达把性能隔离技术移植到Spectrum-X平台,实现了以太网云上的业务性能隔离。

网络计算则是指通过计算机网络进行计算的方式,它将计算任务分配给多个网络节点,并协同完成计算任务。网络计算的特点则主要体现在其分布式和协同性。在数据存储方面,网络计算将数据分散存储在多个节点上,这就使得数据更加安全可靠,且能够更好地应对并发访问。在传输技术方面,网络计算采用高速数据传输技术,使得大规模数据的处理和传输变得更加高效。生成式AI云往往面临资源利用率问题、长尾问题、多任务问题,网络计算可以有效解决。

网络数字孪生是物理网络的虚拟表述,基于数据、模型和接口对物理网络进行分析、诊断、仿真和控制,从而实现与物理网络之间的实时交互映射。借助数字孪生网络平台,运营商可以很好地模拟、选择、优化解决方案,最终将它们部署到实际网络中,这将降低对实际网络的影响,减少一定的安全风险。同时,数字孪生网络结合大数据处理和建模技术可实现对现状的评估、对过去的诊断和对未来的预测,模拟各种可能性,提供更全面的决策分析,有助于网络实现预测性运维。现在的AI云规模通常都很大,投入也非常大。 如果直接构建一个物理的系统,在物理系统上做Debug的成本非常高。 先构建AI数据中心的数字孪生虚拟数据中心,预先进行配置、调试、优化、测试,可以有效降低成本。

相关内容

美年健康:借助AI技术赋能...
证券之星消息,美年健康(002044)07月08日在投资者关系平台...
2025-07-09 22:13:52
快手张迪:AI将进一步拓展...
日前,在2025全球数字经济大会“人工智能融合应用发展论坛”上,快...
2025-07-09 22:13:24
高德地图上线AR打卡功能,...
“每个角落都有故事”,怀揣着这样的愿景,阿里巴巴集团旗下高德地图正...
2025-07-09 22:13:11
让AI在企业真能用、真落地...
7月9日,飞书发布了知识问答、AI会议、Aily、飞书妙搭等多款A...
2025-07-09 14:41:16
昆仑万维开源最强多模态推理...
智东西(公众号:zhidxcom) 作者| 程茜 编辑| 漠影 智...
2025-07-09 12:41:09
原创 ...
各位朋友,大家好,我是帮主郑重。今天美股市场有件大事,英伟达市值突...
2025-07-09 10:43:29

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...