Meta 研发新方法:整合语言和扩散 AI 模型
创始人
2024-08-24 07:43:57
0

IT之家 8 月 24 日消息,Meta AI 公司最新推出了 Transfusion 新方法,可以结合语言模型和图像生成模型,将其整合到统一的 AI 系统中。

IT之家援引团队介绍,Transfusion 结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。

Meta 解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。

许多多模态语言模型的工作原理与此类似,它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。

不过 Transfusion 采用单一、统一的 Transformer 架构,适用于所有模式,对文本和图像数据进行端到端训练。文本和图像使用不同的损失函数:文本使用下一个标记预测,图像使用扩散。

为了同时处理文本和图像,图像被转换成图像片段序列。这样,模型就能在一个序列中同时处理文本标记和图像片段,特殊的注意力掩码(attention mask)还能让模型捕捉图像内部的关系。

有别于 Meta 现有的 Chameleon(将图像转换成离散的标记,然后用处理文本的方式处理)等方法,Transfusion 保留了图像的连续表示法,避免了量化造成的信息损失。

实验还表明,与同类方法相比,"融合" 的扩展效率更高。在图像生成方面,它取得了与专门模型相似的结果,但计算量却大大减少,令人惊讶的是,整合图像数据还提高了文本处理能力。

研究人员在 2 万亿个文本和图像标记上训练了一个 70 亿参数的模型。该模型在图像生成方面取得了与 DALL-E 2 等成熟系统相似的结果,同时还能处理文本。

IT之家附上参考地址

相关内容

从拼算力到拼电力:AI重塑...
来源:证券时报 每一届夏季达沃斯,“能源”都是绕不开的话题。但在2...
2026-06-25 09:32:00
下一代数据库技术展现大幅减...
钛媒体App 6月25日消息,为破解人工智能(AI)智能体常见的“...
2026-06-25 09:29:24
“AI幻觉”一本正经地胡编...
“AI幻觉”一本正经地胡编乱造,侵权责任谁担? “AI幻觉”指大语...
2026-06-25 09:28:06
6月23日锡业股份跌7.5...
证券之星消息,6月23日锡业股份(000960)跌7.54%创60...
2026-06-23 22:05:46
城市词元工厂落地 焕新AI...
(图片来源:摄图网) (记者 杜峰)近日,在四川自贡举行的“202...
2026-06-23 19:15:39
6月23日西部黄金跌9.9...
证券之星消息,6月23日西部黄金(601069)跌9.96%,收盘...
2026-06-23 19:09:06

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...