为何使用Kubernetes进行AI推理成了绝佳选择?
创始人
2024-08-14 11:40:26
0

原文标题:5 Reasons To Use Kubernetes for AI Inference

Kubernetes成为AI推理领域的首选,归功于其与AI推理需求高度匹配的多项核心功能。

Kubernetes的主要特性与AI推理任务的需求高度契合,无论是AI驱动的微服务还是机器学习模型,这些功能都显得格外适宜。让我们深入了解这些特性,以及它们如何为AI推理工作负载带来益处。

一、可扩展性

AI应用程序和机器学习(ML)模型的扩展能力保证了它们可以应对所需的工作量,例如同时发生的用户请求。Kubernetes提供了三种内置的自动扩展工具,每个工具都有助于提升系统的可扩展性:水平Pod自动扩展(HPA)、垂直Pod自动扩展(VPA)以及集群自动扩展(CA)。

  • 水平Pod自动扩展功能:会基于多种性能指标(如CPU、GPU和内存使用率)来增减执行应用程序或机器学习模型的Pod数量。用户请求量上升时,HPA会增加资源分配;请求量下降时,则减少资源分配。
  • 垂直Pod自动扩展功能:依据Pod内容器的实际资源消耗来调整其CPU、GPU和内存的配置和限制。通过修改Pod规格中的资源限制,可以精确控制Pod获取的资源量,这有助于提升节点资源的使用效率。
  • 集群自动扩展功能:会根据Pod的资源需求来调整整个集群的计算资源总量。它能够根据需要动态地增减集群中的工作节点,对于支持大规模用户群体的大型机器学习模型的推理任务来说,CA的作用至关重要。

以下是Kubernetes的可扩展性为AI推理带来的主要优势:

  • 能够自动增减Pod副本以满足需求,保障AI任务的持续可用性。
  • 允许根据需求自动改变集群规模,以适应产品的扩展。
  • 允许根据应用的实际资源需求进行优化,确保只支付实际使用的资源费用。

二、资源优化

通过全面提高推理工作负载的资源使用效率,确保为这些工作负载分配恰当的资源量。这种做法有助于成本节约,尤其是在使用成本较高的GPU时显得尤为重要。Kubernetes的关键功能,包括高效的资源配置、对资源限制和请求的精细管理,以及自动扩展,使得资源使用的优化成为可能。

  • 资源分配的高效率:通过在Pod的配置文件中设定,您可以为Pod指派一定量的GPU、CPU和RAM。然而,目前仅有NVIDIA加速器实现了GPU的时间分割和多实例共享功能。对于使用Intel或AMD加速器的情况,Pod通常需要申请完整的GPU资源。
  • 资源“限制”与“请求”的精细管理:请求(requests)指明了容器运行所需的最低资源量,而限制(limits)确保容器不会消耗超过设定量的资源。这种机制实现了对计算资源的精确控制。
  • 自动扩展机制:HPA、VPA和CA通过智能调整资源分配,有效避免了资源的闲置浪费。只要这些工具得到恰当设置,就能确保资源得到充分利用,不会有未被使用的资源存在。

利用Kubernetes的这些特性,工作负载能够获得恰到好处的计算资源。考虑到在云平台上租赁中等性能GPU的费用大约为每小时1到2美元,所以在一定程度上可以带来显著的成本节约。

三、性能优化

尽管AI推理在资源需求上通常低于训练过程,但它仍旧依赖于GPU和其他计算资源以保持高效。Kubernetes的HPA、VPA和CA是提升推理效率的关键因素,它们保障了AI应用即便在负载波动时也能得到合适的资源分配。此外,可以利用如StormForge或Magalix Agent这类工具来进一步管理和预测AI工作负载的性能。

总而言之,Kubernetes的灵活性和资源使用优化功能,确保了AI应用无论规模大小或负载变化,都能达到最佳运行状态。

四、可移植性

对于AI工作负载,如机器学习模型,可移植性极为重要。这样就可以在各种环境用同一方式部署,无需顾虑底层基础设施的差异,进而节约时间和成本。Kubernetes主要通过两个核心功能来实现这种可移植性:容器化技术以及对各种环境的广泛适应性。

  • 容器化技术:Kubernetes利用如containerd和Docker等工具,将机器学习模型和AI应用连同其依赖项封装进易于携带的容器。这样,可以在任何云平台或环境中,甚至配合其他容器管理系统,部署这些容器。
  • 多云与混合云支持:Kubernetes的集群能够跨越不同的云环境,包括公共云、私有云以及本地设施。这种能力赋予了用户更大的操作灵活性,并减少了对特定供应商的依赖。

以下是Kubernetes在可移植性方面的主要优势:

  • 确保机器学习模型在多样化的环境下实现一致性部署。
  • 简化了AI工作负载的迁移和升级流程。
  • 提供了在选择云服务商或本地基础设施时的灵活性。

五、容错机制

执行AI推理任务时,基础设施的故障或中断可能导致精度显著降低、模型行为变得不稳定或服务完全停止。这种情况对于多数AI应用来说是不可容忍的,尤其是对于那些安全性至关重要的应用,如机器人技术、无人驾驶汽车和医疗诊断。Kubernetes的自愈能力和容错机制有助于避免这些问题的发生。

  • Pod和节点的容错机制:Kubernetes能够识别并自动重启失去响应的Pod,保障应用的持续可用性和响应性。若Pod所在的节点发生故障,Kubernetes将自动将Pod迁移至健康的节点。
  • 滚动更新:Kubernetes允许进行滚动更新,允许在最小化停机时间的情况下更新容器镜像。这样就可以迅速实施错误修正或模型更新,同时确保推理服务的连续性。
  • 健康检查:通过就绪性和存活性探测,Kubernetes执行健康检查,以确定容器是否能够接收流量或是否处于健康状态,并在需要时触发容器的重启或替换。
  • 集群自愈:Kubernetes具备自动修复功能,能够处理控制层面和工作节点的问题,比如替换故障节点或重启异常组件,从而保持AI推理集群的健康和可用性。

以下是Kubernetes容错功能的主要好处:

  • 确保AI应用的高可用性和快速响应,增强了应用的弹性。
  • 将问题出现时的停机时间和服务中断降至最低。
  • 提升应用程序和模型的可用性,使其更能承受突发的基础设施故障,从而提高用户满意度。

结论

随着企业不断将人工智能集成到它们的应用之中,部署大规模机器学习模型并应对变化的负载,选择Kubernetes作为核心技术变得非常关键。作为Kubernetes的托管服务提供者,我们观察到市场对具备可扩展性、容错能力和成本效益的基础设施的需求日益上升,这样的基础设施能够满足AI推理的需求。Kubernetes正是一个内建这些功能的平台。

作者丨Zulyar Ilakhunov 编译丨Rio

来源丨https://thenewstack.io/5-reasons-to-use-kubernetes-for-ai-inference/?utm_referrer=https%3A%2F%2Fwww.google.com%2F

*本文为dbaplus社群编译整理,如需转载请取得授权并标明出处!欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn

相关内容

美工课程视频讲解:零基础也...
你是不是也这样:收藏夹里塞满了各种“美工入门教程”、“PS速成课”...
2025-07-12 13:14:12
看了AI生成的ASMR吃播...
前段时间,一条用 AI 生成的切水果 ASMR 短视频,在洋抖上爆...
2025-07-12 13:13:44
上海AI实验室团队:如何优...
这项由上海AI实验室和复?dan大学联合开展的突破性研究发表于20...
2025-07-12 13:13:26
驱动智能转型 业界推动AI...
人民网北京7月11日电(记者许维娜)清晨7点,一家钢铁企业的班前会...
2025-07-12 12:41:51
月之暗面Kimi K2发布...
月之暗面今天宣布,正式发布Kimi K2模型,并同步开源。Kimi...
2025-07-12 06:12:21
7月11日广晟有色涨5.5...
证券之星消息,7月11日广晟有色(600259)涨5.57%,收盘...
2025-07-11 18:11:28

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...