今天凌晨,Meta 正式发布新一代开源大模型 Llama 3.1 系列,提供 8B、70B 及 405B 参数版本。
其中,405B 是其迄今最强大的模型。从评分上看,超过了 GPT-4 (0125),和 Claude 3.5 不相上下。
Llama 3 使用了超过 1.6 万个 H100 GPU、以及超过 15T token 的公开数据进行训练。
架构方面,该模型选择标准的仅解码器 Transformer 模型架构进行调整,而不是混合专家模型,以最大化训练稳定性。
此外,Llama 3 采用了迭代的后训练程序,每一轮使用监督微调和直接偏好优化。
Meta 表示,Llama 3.1 系列在推理能力和多语言支持方面进行了改善,其上下文长度被提升至 128K,而模型参数也被提高到了 4050 亿规模,是近年来规模最大的大语言模型之一。
该模型在通用常识、可引导性、数学、工具使用和多语言翻译等广泛任务中足以对标 GPT-4、Claude 3.5 Sonnet 等领先闭源模型。
Llama 3.1 现已于 Meta 官网和 Hugging Face 开放下载。
Llama 3.1 论文:
https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
Llama 3.1 官方文档:
https://llama.meta.com/docs/overview/
为了给 Llama 3.1 造势,Meta 创始人兼 CEO 扎克伯格不仅洋洋洒洒写了一篇雄文——《Open Source AI Is the Path Forward》,还接受了知名 AI 媒体 Rundown AI 的独家专访,
在采访中,小扎表示 Llama 3.1 是开源 AI 的关键时刻,并有可能成为开源 AI 标准 (the open source AI standard),就像当年 Linux 对操作系统的影响。
我一直认为开源 AI 会成为行业标准,就像当年 Linux 一样。在 Linux 流行之前,各家公司都有自己的封闭版 Unix。
当时,还没有哪个开源项目达到那样的复杂程度。人们认为,只有封闭的开发模式才能实现如此先进的技术。
最初,Linux 因为成本低廉和高度可定制而获得了立足点。
随着生态系统的不断完善,它受到了更多的关注和审查,变得更加安全和先进。越来越多的合作伙伴加入,为其开发更多的功能和驱动程序,最终使 Linux 比任何闭源的 Unix 都更具功能性。
所以我认为 Llama 3.1 的发布也是一个类似的转折点,Llama 有机会成为开源 AI 的行业标准。
即使在某些性能上还没有完全超越,Llama 在成本、可定制性以及模型微调等方面的优势已经非常明显。
我相信这些优势将被开发者充分利用,我们也在致力于构建一个合作伙伴生态系统,围绕 Llama 开发出更多的功能。对此我非常兴奋。
emmm,不知道 Robin 怎么评价小扎的观点?
延伸阅读
李彦宏再度锐评:开源大模型只有表面可控性、闭源的效率就是更高
李彦宏:开源模型会越来越落后、自然语言将成为新的通用编程语言
李彦宏:大模型开源与传统Linux开源不同、闭源才能走通商业模式
Reference
https://ai.meta.com/blog/meta-llama-3-1/
https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
https://www.threads.net/@rowancheung/post/C9xPmHcpfiN
https://www.therundown.ai/p/meta-releases-llama-405b
https://x.com/dotey/status/1815810776394858617
活动推荐
END
热门文章
-Crowdstrike更新导致全球Windows大面积蓝屏死机
-程序员应该掌握的三种编程语言——有Zig无Rust?
-开源独角兽GitLab将被“卖身”
-美国安全软件更新导致“微软蓝屏”——Linux用户和马斯克都在看乐子