Meta 开源了语言翻译 AI 模型
创始人
2024-03-02 11:40:13
0

Meta 的 “ 不落下任何语言 No Language Left Behind ” 是一个宏大的开源项目,旨在以最高准确度翻译语言。

meta

Meta(前身是 Facebook)在开源世界做出了不小的贡献。Meta 除了专注于 元宇宙 Metaverse 和其社交媒体平台外,还致力于各种研究和创新工作,比如 React(一个 JaveScript 库)。

现在,Meta 的研究人员决定开源一个叫 “ 不落下任何语言 No Language Left Behind ” 项目。

(LCTT 校注:这个直译项目名称不够好听,我来抛砖引玉,似可称做“无人独语”,读者有什么建议吗?)

Meta 试图不落下任何语言

目前,虽然世界上有大约 7000 个在使用中的语言,但大多数在线的内容都是以少数的流行语言来提供的,比如英语。这让许多不懂这些语言的人处于不利的地位。

虽然现存的许多翻译工具,但语法错误会让错误变得难以阅读和理解。另外,如果你想把内容翻译为一个不流行的语言(特别是非洲和亚洲的一些语言),翻译体验不会很好。

因此,Meta 正在开发有最高质量的翻译工具,可以帮助解决这一全球性的问题。

NLLB-200( 不落下任何语言 No Language Left Behind ) 是一个人工智能翻译模型,其可以翻译 200 多种语言。该模型在每种语言中的翻译结果是通过一个名为 FLORES-200 复杂数据集来确定和评估的。

正如 Meta 所说,NLLB 的翻译结果比以前的人工智能研究方法好 40% 。对于一些最不常见的语言,其翻译准确率甚至超过 70%。了不起的工作!

为了帮助开发项目和提高模型的翻译质量,Meta 向所有感兴趣的研究人员开放了源代码,包括 NLLB-200 模型、FLORES-200 数据库、模型训练和重建训练数据库的代码。

你可以在 GitHub 上找到源代码,并且可以在该项目的 博客 上了解它的更多信息。

对社会事业的鼓励

Meta 宣布向从事 联合国可持续发展目标 UN Sustainable Development Goals 任何领域工作和翻译非洲语言的非营利组织和研究人员提供高达 20 万美元的捐赠,也鼓励其他学术领域如语言学和机器翻译的研究人员申请。

项目的影响

尽管 Meta 主要打算在其数字平台上,特别是在“元宇宙”上使用 NLLB,但 NLLB 也有可能在其他领域产生巨大影响。

许多用户可以用他们的母语轻松地访问和阅读在线资源。项目开源后,社区应该能够帮助实现这个目标。

你对 Meta 的这个项目有什么看法?


via: https://news.itsfoss.com/meta-open-source-ai-model/

作者:Rishabh Moharir 选题:lkxed 译者:fenglyulin 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

相关内容

我们是否用错误的方式测试A...
当人们想要对人工智能的现状及其意义有一个清醒的认识时,他们往往会求...
2026-01-21 19:47:46
AI影像技术团体标准在大兴...
1月21日,《人工智能影像生成与应用技术要求》团体标准在京发布。 ...
2026-01-21 19:19:20
虹软科技(688088.S...
格隆汇1月21日丨虹软科技(688088.SH)互动平台表示,Cl...
2026-01-21 19:18:11
2026年度中国AI原生C...
随着人工智能技术的深入发展,传统CRM系统已无法满足企业对智能化、...
2026-01-21 16:17:15

热门资讯

如何在 Github 上创建一... 学习如何复刻一个仓库,进行更改,并要求维护人员审查并合并它。你知道如何使用 git 了,你有一个 G...
《Apex 英雄》正式可在 S... 《Apex 英雄》现已通过 Steam Deck 验证,这使其成为支持 Linux 的顶级多人游戏之...
Helix:高级 Linux ... 说到 基于终端的文本编辑器,通常 Vim、Emacs 和 Nano 受到了关注。这并不意味着没有其他...
JStock:Linux 上不... 如果你在股票市场做投资,那么你可能非常清楚投资组合管理计划有多重要。管理投资组合的目标是依据你能承受...
Textual:为 Pytho... 快速入门使用 TextualPython 在 Linux 上有像 TkInter 这样的优秀 GUI...
硬核观察 #1245 Open... #1 OpenAI 悄然删除禁止将 ChatGPT 用于 “军事和战争” 的禁令在 1 月 10 日...
使用时间序列数据,用开源工具助... InfluxData 是一个开源的时间序列数据库平台。下面介绍了它是如何被用于边缘应用案例的。收集到...
使用 KRAWL 扫描 Kub... 用 KRAWL 脚本来识别 Kubernetes Pod 和容器中的错误。当你使用 Kubernet...
硬核观察 #1249 LG 洗... #1 LG 洗衣机每天上传近 4GB 的数据?一个名为 Johnie 的 LG 洗衣机用户发现,他的...
2024 年 Linux 和开... 让我们尝试预测未来吧!新的一年快乐,朋友们 ✨2024 年的钟声已经敲过,我们有必要去预见一下将塑造...