现代AI始于开源,并运行在Linux上。如今,Linux不仅对人工智能至关重要,它更是当今整个现代AI技术栈运行的基础。从超大规模训练集群到边缘推理设备,从上到下都是Linux系统。
AI的神奇效果实际上是非常实用基础设施的综合输出:超级计算机、GPU集群和云集群,几乎都运行某种版本的Linux。核心机器学习框架——TensorFlow、PyTorch、scikit-learn等——都是首先在Linux上开发和调优的。围绕这些工具的工具链,从Jupyter和Anaconda到Docker和Kubernetes,同样为Linux进行了优化。
为什么?因为研究人员和生产工程师实际部署AI的地方就是Linux。未来的IT岗位将依赖于Linux。
AI运行在Linux上,因为它是满足现代AI所需的GPU密集型分布式工作负载的最灵活、强大和可扩展的环境。此外,整个工具链和云生态系统都已标准化到Linux上。
是的,每个AI平台,无论是OpenAI、Copilot、Perplexity、Anthropic,还是你喜欢的AI聊天机器人,都建立在Linux之上,加上驱动程序、库和编排工具,以不同方式组合在一起。专有部分可能占据品牌地位,但没有Linux,它们将无处立足。
这转化为更多的Linux工作岗位。正如Linux基金会的2025年技术人才状况报告指出的,AI正在推动技术工作岗位的净增长,特别是Linux工作岗位。根据报告,这看起来像是"AI正在重塑角色而不是消除它们,导致技能需求的转变和劳动力增长的新机遇"。
除了增加Linux系统和网络管理工作岗位外,Linux Careers网站看到"一个快速新兴的趋势,涉及将Linux专业知识与人工智能和机器学习运营相结合的专业人士"。这类新的AI/Linux工作岗位包括AI运营专家、MLOps工程师、ML工程师和DevOps/AI工程师。
当然,Linux发行商都知道这一点,这就是为什么在发布新的Linux发行版时,他们的制造商会强调AI功能。
例如,Canonical和Red Hat正在竞相在英伟达新的Vera Rubin AI超级计算机平台上插上他们的Linux旗帜。竞赛的目标是看谁将拥有"千兆级AI工厂"的操作系统层。
Red Hat方面正在推出面向英伟达的Red Hat Enterprise Linux (RHEL)。这个RHEL的定制版本专门针对英伟达的Rubin平台进行了优化,包括Vera Rubin NVL72机架级系统。
该公司表示,这个变体将提供对Vera CPU、Rubin GPU和英伟达CUDA X堆栈的第0天支持,验证的OpenRM驱动程序和工具包直接通过Red Hat存储库交付。
Canonical也在为英伟达Rubin平台推出官方Ubuntu支持,同样针对Vera Rubin NVL72。这家总部位于伦敦的公司将其故事围绕使基于Arm的定制Vera CPU成为"一等公民",在即将发布的Ubuntu 26.04版本中实现与x86的平等地位。
因此,与Red Hat为英伟达处理器提供专门的RHEL不同,新的Ubuntu将支持英伟达。这个版本还将上游诸如嵌套虚拟化和ARM内存分区和监控(MPAM)等功能,以更好地为多租户AI工作负载分区内存带宽和缓存。
运行这一切的是一个Linux内核,它已经稳步修改以跟上AI对硬件加速的巨大需求。现代内核处理GPU和专用加速器驱动程序、用于快速移动张量的复杂内存管理,以及为大规模并行批处理作业调优的调度器。
简而言之,内核在过去十年中已经重新设计,成为AI硬件加速器的操作系统。
具体来说,最重要的推动因素之一是异构内存管理。这使得设备内存,如图形处理单元/视频随机存取内存(GPU VRAM),能够集成到Linux的虚拟内存子系统中。
这与直接内存访问缓冲(DMA-BUF)和非统一内存访问(NUMA)优化相结合,使AI运行时能够将张量保持在加速器附近并减少数据复制,数据复制往往会降低性能。
最新的内核还将高级CPU-GPU组合,如紧密耦合的NUMA风格CPU/GPU节点,视为一等公民。有了这个功能,内存可以根据需要在CPU连接的RAM和高带宽GPU内存之间迁移。
正如英伟达解释的那样,这"使CPU和GPU能够共享单个每进程页表,使所有CPU和GPU线程能够访问所有系统分配的内存"。
Linux现在有一个专门的计算加速器子系统,旨在将GPU、张量处理单元(TPU)和定制AI专用集成电路(ASIC)暴露给你的AI和机器学习程序。
除此之外,GPU支持已经从图形优先发展为计算密集型,通过直接渲染管理器(DRM)、ROCm和OpenCL等开放堆栈,以及英伟达的统一计算设备架构(CUDA)驱动程序。
内核工作已经扩展到涵盖更新的AI加速器,如英特尔的Habana Gaudi、谷歌的Edge TPU和FPGA/ASIC板卡,配备驱动程序和总线抽象。这使得PyTorch或TensorFlow等AI程序能够将它们视为另一个设备并使用它们。因此,今天制造新AI芯片的任何人都理所当然地假设Linux将在其上运行。
Linux的默认调度器——最早合格虚拟截止时间优先(EEVDF)、实时调度器和NUMA平衡——都已经调优,使AI工作负载能够固定CPU、隔离噪声邻居,并无抖动地供应加速器。将默认内核定时器频率从250 Hz提高到1000 Hz的工作已经显示出大语言模型加速的可测量提升,功耗成本可以忽略不计。
虽然这不是Linux的默认设置,但一些发行版,如Ubuntu低延迟内核,现在将此作为标准设置。
现代内核允许GPU直接访问内存、存储甚至对等设备,使用英伟达的GPUDirect和点对点DMA等技术。结合计算快速链路(CXL)和改进的输入/输出内存管理单元(IOMMU)处理,它使加速器在移动数据时能够绕过CPU。这消除了以前阻碍ML训练运行的瓶颈。这种不可见的管道是AI集群能够扩展而不会在自己的I/O下崩溃的原因。
所有这些加起来意味着,当高管们谈论"AI战略"时,他们没有说的是,不那么吸引人的现实是AI战略依赖于大规模管理Linux。这完全关乎修补内核、加固容器和保护不透明的工作负载。AI可能占据头条,但Linux仍然是实际完成工作的操作系统。
Q&A
Q1:为什么Linux成为AI发展的基础操作系统?
A:因为Linux是满足现代AI所需的GPU密集型分布式工作负载的最灵活、强大和可扩展的环境。核心机器学习框架如TensorFlow、PyTorch等都是首先在Linux上开发和调优的,整个工具链和云生态系统都已标准化到Linux上。
Q2:AI发展会为Linux相关工作岗位带来什么影响?
A:根据Linux基金会2025年技术人才状况报告,AI正在推动技术工作岗位的净增长,特别是Linux工作岗位。新兴的AI/Linux工作岗位包括AI运营专家、MLOps工程师、ML工程师和DevOps/AI工程师等。
Q3:Linux内核为支持AI做了哪些重要改进?
A:Linux内核在过去十年中进行了重新设计,包括异构内存管理、GPU和专用加速器驱动程序支持、复杂内存管理、专门的计算加速器子系统等,使其成为AI硬件加速器的操作系统,能够处理大规模并行批处理作业。