谷歌推出 AI 架构 Transformer 新方法:突破长文本处理,
创始人
2024-10-09 12:56:24
0

IT之家 10 月 9 日消息,科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。

Transformer 架构简介

Transformer 是一种革命性的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,特别是在自然语言处理(NLP)领域。

Transformer 的核心是自注意力机制,允许模型在处理输入序列时捕捉词与词之间的关系,让模型能够关注输入序列中的所有部分,而不仅仅是局部信息。

Transformer 由多个编码器和解码器组成。编码器负责理解输入数据,而解码器则生成输出。多头自注意力机制使模型能够并行处理信息,提高了效率和准确性。

Transformer 架构模型挑战

Transformer 架构的一大挑战是它们在处理长文本序列时效率低下,由于每个标记与序列中的每个其他标记都相互作用导致二次复杂度,这就导致随着上下文长度的增加,计算和内存需求呈指数增长。

现在解决这一问题的方法包括稀疏注意力机制(sparse attention mechanisms),它限制了标记之间的交互数量,以及通过总结过去信息来减少序列长度的上下文压缩技术。

不过这种方法是通过减少在注意力机制中考虑的标记数量达成的,因此通常以性能为代价,可能会导致上下文关键信息丢失。

谷歌新方法

谷歌研究的研究人员提出了一种名为选择性注意的新方法,可以动态忽略不再相关的标记,从而提高 Transformer 模型的效率。

选择性注意力使用软掩码矩阵来确定每个标记对未来标记的重要性,减少对不重要标记的关注。

研究表明,配备选择性注意的 Transformer 架构模型在多个自然语言处理任务中表现出色,同时显著降低了内存使用和计算成本。

例如,在拥有 1 亿参数的 Transformer 模型中,注意力模块的内存需求在上下文大小为 512、1024 和 2048 个 tokens 时分别减少至 1/16、1/25 和 1/47。所提方法在 HellaSwag 基准测试中也优于传统 Transformer,对于较大的模型规模实现了高达 5% 的准确率提升。

选择性注意力允许构建更小、更高效的模型,在不损害准确性的情况下,显著减少内存需求。

IT之家附上参考地址

相关内容

【一周连连看】推动大模型从...
Hi,假期快乐。 本周,你将看到: 1、AI暑期营火了 2、硅谷,...
2026-06-21 20:19:17
CBVI:2026 中国品...
CBVI:2026 中国品牌AI可见度指数 China Brand...
2026-06-21 19:12:58
AI 知识付费“出海”:一...
文 | wiwi AI 浪潮里,最先赚到钱的人,未必是最懂 AI...
2026-06-21 14:04:50
阿里合伙人调整:AI科学家...
阿里巴巴(HK09988,股价104.9港元,市值2.01万亿港元...
2026-06-21 12:06:30
用AI报高考志愿靠谱吗?专...
距离高考成绩发布还有几天时间,从分数公布到志愿填报,很多考生和家长...
2026-06-20 19:54:02
原创 ...
目前 iOS 微信又上线了新功能:小微。 我们进入微信主界面,之前...
2026-06-20 18:26:20

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...