热浪和AI给数据中心高效运营带来重重压力
创始人
2024-08-22 18:14:58
0

最佳温度范围是数据中心高效运行的关键因素。然而,随着全球进入极端高温时期,停电风险越来越严重,而且这种风险还在不断增加。

热浪可能导致数据中心组件过热和故障,导致运营商关闭服务器以防止损坏,从而导致停机和潜在的停电。

例如在2022年7月,伦敦气温达到创纪录的104华氏度(40摄氏度),导致冷却系统出现故障,导致Google和Oracle数据中心下线。两个月后,酷热摧毁了Twitter位于萨克拉门托地区的数据中心。

Cockroach Labs首席技术官、联合创始人Peter Mattis指出,敏感电子设备和硬件(如服务器、存储设备和网络设备)中的各个组件在既定的工作温度下才能以最佳状态运行。

数据中心的推荐温度范围可能低至65华氏度或高至95华氏度,在防止过热和潜在设备损坏方面发挥着关键作用。

这个范围是由特定硬件目标的工作温度范围和该硬件可以运行的条件决定的。

“随着热浪越来越多,这将是一个反复出现的问题,而且问题会越来越严重——热浪加上停电,数据中心就离线了,”他说。

Akamai企业可持续发展总监Mike Mattera解释说,温度波动始终是数据中心运营的一个考虑因素,而天气的预期范围并不是主要问题。

“我们已经解决了这个问题。相反,极端温度,尤其是高温,会给电网带来巨大压力,并可能增加当地生活用水系统的使用量,具体要取决于冷却系统。”

当热浪来袭时,电力和水的使用量会因为系统和冷却技术类型的不同而增加,给当地市场带来额外的压力。

Mattera指出,在电力和水资源较为有限的地区,例如美国德克萨斯州和亚利桑那州,这成了一个特别突出的问题。

确保热浪期间的连续性

Mattera解释说,由于当今全球都出现了极端高温,很多人都参与到确保数据中心能够继续运行的行动中。

确保热浪期间连续性的关键利益相关者是现场设施管理人员,更广泛地说,是设施团队,包括电工、机械工程师以及供暖、通风和空调(HVAC)专业人员。

“这个团队需要确保关键系统正常运行,并且在出现问题时现场有不间断电源可用,”他说。

他警告说,轻微的功率下降可能会破坏泵、风扇和压缩机等组件,从而影响系统冷却和调节空气。

此外,数据中心冷却具有庞大的控制系统网络,需要稳定的电流来操作系统的各个组件,以确保调节后的空气以最佳方式流入数据中心空间。

Sustainable and Scalable Infrastructure Alliance (SSIA)社区董事会成员Zachary Smith表示,数据中心运营商和支持这些设施的机械团队会针对一系列自然灾害和资源限制制定计划。

他补充说,数据中心运营商随后会与客户密切合作,以遵循已经发布或经过商定的服务水平协议(SLA)。

“如果资源或自然灾害需要关闭或限制某些服务,他们可能还会与客户制定应急计划,”他说。

从他的角度来看,过去几年最大的重点是效率——尽可能有效地利用电力、冷却和水资源,减少整个设施的浪费。

这一点已经实现了——通过提高数据中心温度、改进监控解决方案和智能楼宇管理系统、以及电力分配和调节方面。

越来越多的数据中心运营商正在实施液体冷却技术,以进一步提高设施的效率,同时在很多情况下,会在设施或IT设备层面转向闭环“无水”冷却设计。

“所有这些都有助于数据中心提高效率,能够在日益严峻的条件下运行,”Smith说。

Komprise总裁兼首席运营官Krishna Subramanian表示,节能基础设施和更有效的冷却设计(如液体冷却)是目前正在考虑的两种技术。

“另一种有效但较少探索的高效数据中心电源管理策略是减少主动管理的数据量,”她说。

由于数据消耗了数据中心30%甚至更多的资源,并且80%的数据都是冷数据,因此高效的数据管理可以减少数据中心三分之一的负担,甚至不需要对基础设施进行任何大改。

“随着热浪频率的上升,再加上高密度AI处理器的热量输出越来越大,问题在两个方面越来越加剧,”Subramanian说。

AI增加了数据中心的热量和功耗,使冷却方面的挑战变得更为复杂

AI让挑战变得越来越复杂 但同时也提供了解决方案

AI 的持续崛起将加剧挑战,但许多挑战也有助于解决保持数据中心在可接受的工作温度下运行的问题。

AI耗电量大,更多的AI处理会增加数据中心的热量输出和功耗,从而加剧问题。

Smith表示:“一方面,具有更密集硬件配置的模型训练和推理的AI工作负载需要大量计算能力和能源,为AI模型和应用供电的服务器会产生大量必须消散和冷却的热量。”

在这方面有很多机架级创新成果已经显现,用于提高冷却和电源效率,其中包括从风冷数据中心转向机架级液体和浸入式冷却,以及从12V转向48V以实现更高效的散热。

Mattera表示,训练这些模型时发生的复杂计算需要更多资源密集型硬件,从而导致模型整体功率增加以保证最佳运行。

“资源利用率和发电量的增加意味着数据中心内会产生更多热量,这会给冷却系统带来压力,”他解释说。

此外,AI算法和模型的动态特性可能导致电力需求和热量产生激增,而传统的冷却系统可能难以跟上。

“考虑到过去一年对集中式数据中心建设的巨额投资,以满足对大型语言模型的旺盛需求,我预计电网的压力将会进一步增加,”他说。

Smith指出,虽然AI工作负载的增加给保持数据中心处于最佳工作温度带来更多挑战,但它也可以成为解决问题的一个良方,其中包括用AI来优化热性能管理,例如对液体冷却或气流的需求,以及对冷却系统的预测性维护。

“随着热浪的增加,AI还可以用于为实时天气和长期环境模式系统提供动力,从而可以根据外部因素自动调整能源消耗和冷却系统,”他说。

相关内容

龙芯中科:通过IP授权、开...
证券之星消息,龙芯中科(688047)07月10日在投资者关系平台...
2025-07-10 21:12:41
涉嫌严重违纪违法,余钟华被...
据江西省赣州市纪委监委消息:赣州市住房和城乡建设局党组书记、局长余...
2025-07-09 22:12:16
大丰实业创60日新高,开源...
今日大丰实业(603081)创60日新高,收盘报11.98元。 2...
2025-07-09 16:41:46
让AI在企业真能用、真落地...
7月9日,飞书发布了知识问答、AI会议、Aily、飞书妙搭等多款A...
2025-07-09 14:41:16
还在为AI数据发愁?张文涛...
1. 基本介绍 近年来,大模型发展主要由大型科技公司主导,其领先的...
2025-07-09 10:42:14
苹果联合哥伦比亚大学开发A...
IT之家 7 月 8 日消息,苹果与哥伦比亚大学的研究团队开发出了...
2025-07-08 09:43:38

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...