中兴通讯陈新宇:算力高速互联 超节点开启AI进阶新篇章
创始人
2024-09-24 12:50:20
0

在2024中国国际北京通信展期间,中兴通讯副总裁陈新宇介绍了中兴通讯在超节点方案的最新突破,彰显了中兴通讯在算力和网络技术上的强大创新能力。

中兴通讯副总裁陈新宇

随着人工智能技术的飞速发展,AI大模型的参数规模正以超越摩尔定律的速度急剧扩张。在此背景下,探索如何在超大规模智算集群中实现GPU之间的高速互联,从而显著提高GPU的利用率,已成为行业面临的重要挑战。

中兴通讯凭借其在算力和网络技术领域的深厚积累,推出了更先进的超节点方案。陈新宇在介绍时强调:“我们的超节点方案能够实现更多GPU之间的高速互联,为大模型的训练提供了强有力的支撑。”

大模型驱动,超节点成为AI进阶的必然选择

AI大模型的迅猛发展对计算能力提出了前所未有的挑战。为应对这一需求,企业纷纷构建智算集群,并引入并行计算技术,以加速模型训练。然而,尽管并行计算提升了整体计算效率,它也带来了同步开销和通信延迟的问题。

陈新宇指出:“在万亿参数规模的模型训练中,跨机并行在带来计算效率提升的同时,也带来了新的问题——空泡现象。” 具体来说,模型在不同GPU和服务器间进行数据传输时,GPU因等待无法充分利用,导致计算过程中出现‘空泡’,从而影响了模型训练的整体效率。他进一步解释,混合专家模型(MoE)引入专家并行训练,进一步加剧了通信带宽和时延问题,使得GPU空转时间显著增加,成为大模型训练中的技术瓶颈。

为了应对这一问题,中兴通讯推出超节点解决方案。陈新宇解释道:“在单个节点内增加GPU的数量,能够显著减少跨节点的通信量,进而大幅提升GPU的利用率。”由于机内带宽通常远高于跨机带宽,因此,增加单机内的GPU数量,充分利用机内带宽,是降低GPU空转比例的关键。

突破算力拓展瓶颈 ,OLink助力构建超节点

随着大模型训练对算力需求的不断提升,传统的机内点对点Full Mesh互联架构逐渐暴露出其扩展性不足的弊端。Full Mesh架构虽然能够提供高带宽和低延迟的通信能力,但其扩展能力有限,尤其是在GPU数量增加时,点对点的通信方式难以实现线性扩展。通常,Full Mesh架构最多只能支持单机8张GPU卡,这大大限制了大模型的训练效率。

为了构建超节点,中兴通讯创新性地推出了OLink交换技术。通过这种技术,GPU之间的通信从传统的点对点互联模式转向交换互联模式,显著提升了单机的扩展性和通信带宽,突破单机8卡的限制。陈新宇强调:“通过OLink技术,可以打造更大规模的高带宽域(HBD),从而大幅提升集群算力。”通过OLink高速交换,还可以将高带宽域从机内拓展到机间,从而实现更高的扩展性,能够支持16卡以上的扩展。这种线性扩展能力,为构建更高密度的超节点奠定了坚实基础。

开放互联,构建多元化智算生态

当前,GPU互联私有总线协议的封闭性已成为多厂家芯片兼容的主要障碍,限制了硬件系统的扩展性,并增加了技术升级和维护的难度。为克服这一局限,中兴通讯在其OLink技术中采用了开放标准。

陈新宇强调:“我们的OLink标准是开放的,它不仅促进了多厂家生态的繁荣,还为企业提供了更加灵活的选择。”这一技术开放性为行业带来了更大的灵活性和可持续性,有助于推动智算技术的多元化发展。

在未来的规划中,机内和机间将统一采用OLink交换高速互联,通过OLink互联协议和交换芯片,提供端到端的GPU高速互联方案。这不仅简化了智算集群的组网复杂度,还有效提升了整个系统的扩展能力和性能,使得AI模型训练和推理变得更加高效。

智算未来,超节点加速AI落地

在AI技术变革的浪潮中,中兴通讯凭借其在智算和网络领域的创新技术,正加速推动AI技术在各行业的应用落地。其新一代超节点方案在硬件架构上实现了重大突破,展现出极高的开放性和兼容性,能够在各种场景中广泛应用,促进AI技术的普及和行业发展。

陈新宇强调:“通过持续的技术创新,我们将引领AI产业迈向更高效、开放的智算未来,为行业带来更多的发展机遇。”

此次采访,展现了中兴通讯在智算架构优化方面的深度研究与技术创新。未来,随着AI模型参数的不断增长和应用场景的不断扩展,中兴通讯将继续通过技术创新,助力各行各业实现数字化转型和智能化升级。

运营商财经(官方微信公众号yyscjrd)—— 主流财经网站,一家全面覆盖科技、金融、证券、汽车、房产、食品、医药、日化、酒业及其他各种消费品网站。

相关内容

AI算力助复旦科研再突破
中新网记者近日了解到,复旦大学在医学领域接连取得突破性成果,继发现...
2025-07-20 11:42:04
福州市长乐区总工会精准“喂...
从家庭作坊、草根工业到全球纺织产业链的关键一环,福州新区(长乐区)...
2025-07-20 10:13:30
广东联通“AI+安全”成果...
7月18日,2025中国联通合作伙伴大会网络安全共链行动生态论坛在...
2025-07-20 09:41:18
AI超级联赛,何以落户广西...
中新网南宁7月18日电(记者 杨陈)近期全国各地高温热浪持续。在广...
2025-07-20 09:40:54
2025中国联通合作伙伴大...
7 月 18 日,以“向实同行共创融合新生态”为主题的 2025 ...
2025-07-19 22:42:52
今年 Steam 平台约有...
IT之家 7 月 19 日消息,前V社顾问 Ichiro Lamb...
2025-07-19 22:42:16

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...