定义开源人工智能将解决令人无数头疼的问题_linux资讯

定义开源人工智能将解决令人无数头疼的问题

创始人

2024-10-20 14:28:41

0次

作者 | Mark Surman

译者 | Sambodhi

策划 | Tina

导读：在人工智能时代的迅猛发展中，定义清晰的“开源人工智能”标准将为未来的技术创新提供关键支持。最近，开源促进会发布的草案定义旨在解决当前人工智能领域中“开源”使用不当的问题，为开发者提供明确的指导。本文深入探讨了该定义如何有望创造一个既服务于公共利益，又为人工智能时代提供真正开放工具箱的未来。我们将看到像 EleutherAI 和 Allen 研究所等非营利组织的工作如何为人工智能的开放生态系统注入动力，并推动技术的可持续发展。同时，我们也将讨论主要商业参与者如何调整策略，采纳新的定义，以确保开源人工智能的长期发展和稳定性。这不仅关乎技术本身，还涉及到我们数字基础设施的未来以及全球范围内的创新能力。如果你对人工智能的未来充满好奇，或者希望了解开源技术如何塑造我们的数字世界，这篇文章将为你提供深入的洞察与启发。

几周前发布的一份约 500 字的文件将深刻影响互联网的未来。开源促进会（Open Source Initiative, OSI）发布了一份接近最终版本的开源人工智能定义，该定义将解放广大的人工智能开发者社区，带来一场如同互联网创建般蓬勃发展的人工智能创新浪潮。开源软件是当今互联网基础设施和大多数应用程序的基石。这是因为开源软件的先驱们将其定义为始终可以自由使用和修改的软件。这推动了开源软件的广泛应用，并为我们的数字生活提供了创新动力。

此时发布恰当其时。我们看到，一波又一波的人工智能模型——其中许多来自最大的科技公司——打着“开源”的旗号，却未能体现最初开源软件定义的精神。虽然这可能看似只是语义上的问题，但名正言顺至关重要。围绕开源人工智能的草率用词可能会扼杀未来数万亿美元的创新，并让人工智能的发展掌控在少数大公司手中。

如果没有一个真正开放的人工智能开发精神和社区，损失将是巨大的。哈佛大学最近的一项研究表明，开源软件已创造了约 8 万亿美元的经济价值。所有这些创新都源自于 1998 年撰写的最初关于开源的定义：任何自称开源的软件都可以自由使用、研究、修改和共享。这意味着，你可以基于开源软件构建企业、政府服务——几乎任何事情，而无需担心将来有人会向你收费或改变该软件的使用条款。

我们将在人工智能领域看到同样的好处，但前提是开发人员能够自由使用、研究、修改和共享人工智能系统的所有元素。这里的“人工智能系统的所有元素”这一说法尤为关键。人工智能和软件之间存在一些重要的区别。人工智能系统包括由正在运行的人工智能模型和用于创建模型的基础训练数据构成的软件代码。开源促进会的新定义认为，代码和模型必须是开放的，数据必须是透明且可复现的。如果我们想开启下一个创造与创新的时代，我们就需要人工智能实验室（包括大型商业公司）在将其发布的内容称为“开源”之前，接受这一定义。否则，开发者可能会避开开放模型，整个开源生态系统可能会过早停滞。

大型科技公司纷纷推出大型语言模型（Large Language Model，LLM），其中最引人注目的是 Meta 的 Llama，这些模型被称为开源模型。它们使构建人工智能应用变得更加容易，无需承担从头构建的高昂成本。我们已经看到许多有价值的人工智能应用，从药物发现到医学教育，都是基于这些模型构建的。这确实是朝着正确方向迈出的一步，但需要注意的是：这些人工智能模型并非真正开放的。

在本周早些时候的一篇《经济学人》评论文章中，马克·扎克伯格和 Spotify 首席执行官丹尼尔·埃克将开源人工智能定义为“以宽松许可方式公开发布其权重的模型”，并以 Llama 为例。这种狭义的定义为 Meta 等公司留了一定的余地，如果他们的人工智能模型不再符合自身利益，可能会改变方向，停止发布其部分人工智能模型。如果出现这种情况，基于这些模型开发的开发者可能会发现自己的产品无法运行，或者至少会受到严重限制——例如服务中断和创新受阻。这不禁让人担心，基于这些模型的应用程序是否具有长期生存能力，甚至整个充满活力的开源人工智能生态系统的可持续性。

今年 2 月，Mozilla 和哥伦比亚大学召集顶尖专家探讨了在人工智能时代，开放性应具有什么样的含义。由此产生的论文指出，在人工智能领域狭隘和草率使用“开源”一词所带来的风险。它还对类似于 Llama 许可证的“伪开源”许可证提出了质疑，因为该许可证只允许每月用户少于 7 亿的产品免费使用。你能想象在开放软件基础上建立一家初创公司，但一旦业务成功，软件就会被限制使用吗？这正是这种许可证可能带来的后果。

该定义草案旨在应对这些风险——明确划定什么算作开源人工智能，以便开发人员清楚知道他们可以依赖什么。这将为人工智能实验室构建不会消失或最终关闭的开源人工智能模型注入动力。

例如，EleutherAI 的 GPT-NeoX-20B 在 Apache 2.0 许可证下发布，允许任何人使用该模型。同样，Allen 研究所的 OLMo 模型提供了用于开发该模型的代码、数据、权重和评估套件的全面访问权限，使研究人员能够深入研究和改进它。与 Meta 的 Llama 不同，这些模型允许研究人员全面研究和测试人工智能系统的内部运作，并根据自身需求进行调整。

值得注意的是，像 Eleuther 和 AI2 这样的实验室都是非营利组织，这让开发人员相信这些资源将持续可用并不断更新，从而确保基于这些模型的产品的可持续性。基于同样的持久支持原则，Linux 和 Apache 等开源项目才能在全球服务器中如此流行。开发人员相信，Linux 和 Apache 基金会将继续为公众利益维护其软件的运行。

这些非营利组织的工作有望创造一个人工智能的未来，既能服务于更广泛的公共利益，又能为人工智能时代提供一个真正开放的工具箱。政策制定者、慈善家以及更广泛的科技界应当积极支持这样的倡议。主要的商业参与者应当以这些项目为榜样，调整他们的方法，使之更加符合开源促进会的新定义。如果我们能够做到这一点，我们就能让任何人——任何社区——都能塑造、享受和信任人工智能。我们数字基础设施的未来以及我们的创新能力都取决于此。

作者简介

Mark Surman是 Mozilla 基金会的总裁，该全球非营利组织不仅开发 Firefox 浏览器，还倡导更开放、公平的互联网。Mark 目前专注于 Mozilla 的两个主要项目：投资负责任的科技初创公司（Mozilla Ventures）以及创建更可信的人工智能基础技术（Mozilla.ai）。在加入 Mozilla 之前，Mark 花了 15 年时间领导各类组织和项目，推动互联网和开源技术用于社会赋能。

原文链接：

https://thenewstack.io/defining-open-source-ai-will-solve-a-million-headaches/

没见过这么荒谬的开源要求！20 多年老牌软件仅开源一个月就删除了全部代码

苹果一篇论文把大模型圈子得罪了！“踩着”OpenAI、Meta大模型上位，Gary Marcus：早就说大模型不会推理！

半生心血贡献给开源，WordPress 之父分叉 20 万行代码报复吸血企业，DHH：别发疯

黑悟空以3亿开发成本创超70亿收入；李开复辟谣零一万物放弃预训练大模型；K8s完成史上最大迁移，删除150万行代码 | Q资讯

Meta 时代 Llama 定义公司软件模型人工智能未来的创新

上一篇：科技浪潮势不可挡！半导体+AI+消费电子获持续看好！15只滞涨绩优股获资金埋伏

下一篇：前海开源公用事业股票近一周上涨2.30%

定义开源人工智能将解决令人无数头疼的问题

相关内容

热门资讯