权威AI开源标准1.0版发布:Llama也不算开源
创始人
2024-10-29 15:00:38
0

机器之心报道

编辑:泽南、小舟

大模型开源的口号,不是随便说说的。

该来的终于来了。

本周,人工智能领域迎来了对于「开源」的官方定义。开放源代码促进会(Open Source Initiative,OSI)发布了「开源 AI 定义」的 1.0 正式版。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中,经常出现的模糊用法。

值得关注的是在此机制下,一直以来开源大模型的标杆 Llama 3 也不符合本规则。

长期以来,OSI 一直为开源软件的构成设定行业标准,但人工智能系统包含传统许可未涵盖的元素,例如模型训练数据。现在,要使 AI 系统被视为真正的开源系统,它必须提供:

  • 可访问用于训练 AI 的数据的详细信息,以便其他人可以理解和重新创建;
  • 用于构建和运行 AI 的完整代码;
  • 训练中的设置和权重,帮助 AI 产生相应的结果。

这一定义直接直击 Meta 推动的 Llama 大模型。虽然在生成式 AI 领域里,Llama 一直被广泛宣传为最大的开源 AI 模型,Llama 的使用条款中支持公众下载和使用,但其商业用途受到一定限制(对于拥有超过 7 亿用户的应用程序),且不提供对训练数据的访问,这导致其不符合 OSI 的无限制使用、修改和共享自由标准。

对此,Meta 发言人 Faith Eischen 对此表示,虽然「在很多事情上都同意合作伙伴 OSI 的观点」,但 Meta 不同意这一定义。不应该设置单一的开源 AI 定义,人们此前对于开源的定义没有涵盖当今快速发展的 AI 模型的复杂性。

不过,无论技术的定义如何,Meta 表示仍将继续与 OSI 和其他行业组织合作,以负责任的方式推动 AI 朝着可访问和免费的方向发展。

在「开源」这件事上,非营利组织 OSI 一直扮演着重要的角色。OSI 维护了一个被业内认可的许可证列表,其定义的开源包括十余个关键条款,如自由再分发、源代码可获得、允许修改和衍生作品等。自 1998 年定义「开源」标签并成立以来,OSI 对开源软件的定义已被开发人员广泛接受。

如今,随着人工智能重塑格局,科技巨头们面临着一个关键选择:是接受这些既定原则,还是拒绝它们。Linux 基金会最近也试图定义「开源人工智能」,这表明关于传统开源价值观如何适应人工智能时代的争论已日益激烈。

独立研究员和开放源代码创建者 Simon Willison 说:「既然我们已经有了一个强有力的定义,也许我们可以更积极地抵制那些『开源洗白(open washing)』并宣称自己的工作是开源的公司。」

Hugging Face 首席执行官 Clément Delangue 称:「 OSI 的定义对于围绕人工智能开放性展开讨论有巨大帮助,特别是在涉及训练数据的关键作用时。」

OSI 执行董事 Stefano Maffulli 表示,该公司花了两年时间咨询全球专家,通过与机器学习和自然语言处理的学界专家、哲学家、Creative Commons 的内容创作者等合作完善了这一定义。

OSI 对于开源 AI 的定义

OSI 表示,「开源」的人工智能系统需要满足以下几点:

  • 可将系统用于任何目的,无需征得许可;
  • 允许人们研究系统的工作原理并检查其组件;
  • 允许人们为任何目的修改该系统,包括更改其输出;
  • 人们可以出于任何目的,将系统共享给他人,无论是否经过修改。

这些自由既适用于功能齐全的系统,也适用于系统的离散元素。行使这些自由的先决条件是能够对系统进行修改。

再进一步,对于机器学习系统可修改的形式,OSI 也进行了定义。必须包含以下所有元素:

  • 数据信息:用于训练系统的数据的足够详细的信息,以便技术人员可以构建基本等效的系统。数据信息应根据 OSI 批准的条款提供。特别是,必须包括:
  • 用于训练的所有数据的完整描述,包括(如果使用)不可共享的数据,披露数据的来源、其范围和特征、数据的获取和选择方式,标签程序、数据处理和过滤方法;
  • 所有公开可用的训练数据的清单以及获取这些数据的方式;
  • 可从第三方获得的所有训练数据的列表以及从何处获取(包括付费)。
  • 代码:用于训练和运行系统的完整源代码。该代码应展示出如何处理和过滤数据以及如何进行训练的完整规范。代码应在 OSI 批准许可下提供。
  • 例如,如果使用,则必须包括用于处理和过滤数据的代码、用于训练的代码(包括使用的参数和设置)、验证和测试、支持库(如分词器和超参数搜索代码)、推理代码和模型架构。
  • 参数:模型参数,例如权重或其他配置。参数应根据 OSI 批准条款提供。
  • 例如,训练中间阶段的检查点以及优化器状态。

对于机器学习系统,模型权重也是一个重要因素。OSI 在开源定义中表述道:

  • AI 模型由模型架构、模型参数(包括权重)和运行模型的推理代码组成。
  • AI 权重是一组学习参数,以根据给定输入生成输出。

对机器学习系统进行修改的范围也包括权重。「开源模型」和「开源权重」必须包括用于导出这些参数的数据信息和代码。

最后,OSI 表示,开源 AI 定义不需要特定的法律机制来确保模型参数可供所有人免费使用。它们可能本质上是免费的,或者可能需要许可证或其他法律文书来确保它们的可用。预计随着时间的推移,法规对于 AI 开放的定义也将变得更加清晰。

参考内容:

https://opensource.org/ai/open-source-ai-definition

https://lfaidata.foundation/blog/2024/10/25/embracing-the-future-of-ai-with-open-source-and-open-science-models/

https://www.theverge.com/2024/10/28/24281820/open-source-initiative-definition-artificial-intelligence-meta-llama

相关内容

定义未来视界:AI眼镜标准...
日前,“2026 AI眼镜产业生态大会”在深圳举行,世界超高清视频...
2026-05-08 15:07:27
AI-BOM:企业应对影子...
曾经困扰企业的"影子IT"问题,如今已演变为更难掌控的"影子AI"...
2026-05-08 15:07:26
香港教育大学讲座教授:AI...
AI是否最终会重塑大脑? 5月7日,“APEC研究中心联席会议青年...
2026-05-08 13:19:01
小米开源OmniVoice...
PChome 5月7日消息,小米技术官微官宣,小米AI实验室新一代...
2026-05-08 13:17:52
AI应用概念股多数高开
南威软件2连板,国安股份涨停,博睿数据、引力传媒、完美世界涨幅居前...
2026-05-08 13:17:36
搜狐AI健康|外骨骼机器人...
出品|搜狐健康 作者|洪瑞祺 编辑|吴施楠 对于癌症患者来说,治疗...
2026-05-08 13:17:16

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...