非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1
创始人
2024-08-13 14:41:04
0

机器之心报道

编辑:杜伟、陈陈

Mamba 架构的大模型又一次向 Transformer 发起了挑战。

Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。

此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。

今天,阿布扎比技术创新研究所(TII)发布了一个新的开源 Mamba 模型 ——Falcon Mamba 7B

先来总结一波 Falcon Mamba 7B 的亮点:无需增加内存存储,就可以处理任意长度的序列,并且能够在单个 24GB A10 GPU 上运行。

目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B,这个仅用因果解码器的模型采用了新颖的 Mamba 状态空间语言模型(State Space Language Model, SSLM)架构来处理各种文本生成任务。

从结果来看,Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型,包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。

Falcon Mamba 7B 分为四个变体模型,分别是基础版本、指令微调版本、4bit 版本和指令微调 4bit 版本。

作为一个开源模型, Falcon Mamba 7B 采用了基于 Apache 2.0 的许可证「Falcon License 2.0」,支持研究和应用目的。

Hugging Face 地址:https://huggingface.co/tiiuae/falcon-mamba-7b

Falcon Mamba 7B 也成为了继 Falcon 180B、Falcon 40B 和 Falcon 2 之后,TII 开源的第四个模型,并且是首个 Mamba SSLM 架构模型

首个通用的大型纯 Mamba 模型

一直以来,基于 Transformer 的模型一直占据着生成式 AI 的统治地位,然而,研究人员注意到,Transformer 架构在处理较长的文本信息时可能会遇到困难。

本质上,Transformer 中的注意力机制通过将每个单词(或 token)与文本中的每个单词进行比较来理解上下文,它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。

但是如果不相应地扩展计算资源,模型推理速度就会变慢,超过一定长度的文本就没法处理了。为了克服这些障碍,状态空间语言模型 (SSLM) 架构应运而生,该架构通过在处理单词时不断更新状态来工作,已成为一种有前途的替代方案,包括 TII 在内的很多机构都在部署这种架构。

Falcon Mamba 7B 采用了卡内基梅隆大学和普林斯顿大学研究人员最初在 2023 年 12 月的一篇论文中提出的 Mamba SSM 架构。

该架构使用一种选择机制,允许模型根据输入动态调整其参数。这样,模型可以关注或忽略特定输入,类似于注意力机制在 Transformer 中的工作方式,同时提供处理长文本序列(例如整本书)的能力,而无需额外的内存或计算资源。

TII 指出,该方法使模型适用于企业级机器翻译、文本摘要、计算机视觉和音频处理任务以及估计和预测等任务。

训练数据

Falcon Mamba 7B 训练数据高达 5500GT ,主要由 RefinedWeb 数据集组成,并添加了来自公共源的高质量技术数据、代码数据和数学数据。所有数据通过 Falcon-7B/11B 标记器进行 tokenized 操作。

与其他 Falcon 系列模型类似,Falcon Mamba 7B 采用多阶段训练策略进行训练,上下文长度从 2048 增加到了 8192。此外,受到课程学习概念的启发,TII 在整个训练阶段精心选择了混合数据,充分考虑了数据的多样性和复杂性。

在最后的训练阶段,TII 使用了一小部分高质量精选数据(即来自 Fineweb-edu 的样本),以进一步提升性能。

训练过程、超参数

Falcon Mamba 7B 的大部分训练是在 256 个 H100 80GB GPU 上完成的,采用了 3D 并行(TP=1、PP=1、DP=256)与 ZeRO 相结合的策略。下图为模型超参数细节,包括精度、优化器、最大学习率、权重衰减和 batch 大小。

具体而言,Falcon Mamba 7B 经过了 AdamW 优化器、WSD(预热 - 稳定 - 衰减)学习率计划的训练, 并且在前 50 GT 的训练过程中,batch 大小从 b_min=128 增加到了 b_max=2048。

在稳定阶段,TII 使用了最大学习率 η_max=6.4×10^−4,然后使用超过 500GT 的指数计划将其衰减到最小值。同时,TII 在加速阶段采用了 BatchScaling 以重新调整学习率 η,使得 Adam 噪声温度保持恒定。

整个模型训练花费了大约两个月时间

模型评估

为了了解 Falcon Mamba 7B 与同尺寸级别领先的 Transformer 模型相比如何,该研究进行了一项测试,以确定使用单个 24GB A10GPU 时模型可以处理的最大上下文长度。

结果显示,Falcon Mamba 能够比当前的 Transformer 模型适应更大的序列,同时理论上能够适应无限的上下文长度

接下来,研究者使用批处理大小为 1 ,硬件采用 H100 GPU 的设置中测量模型生成吞吐量。结果如下图所示,Falcon Mamba 以恒定的吞吐量生成所有 token,并且 CUDA 峰值内存没有任何增加。对于 Transformer 模型,峰值内存会增加,生成速度会随着生成的 token 数量的增加而减慢。

即使在标准的行业基准测试中,新模型的性能也优于或接近于流行的 transformer 模型以及纯状态空间模型和混合状态空间模型。

例如,在 Arc、TruthfulQA 和 GSM8K 基准测试中,Falcon Mamba 7B 的得分分别为 62.03%,53.42% 和 52.54%,超过了 Llama 3 8 B, Llama 3.1 8B, Gemma 7B 和 Mistral 7B。然而,在 MMLU 和 Hellaswag 基准测试中,Falcon Mamba 7B 远远落后于这些模型。

TII 首席研究员 Hakim Hacid 在一份声明中表示:Falcon Mamba 7B 的发布代表着该机构向前迈出的重大一步,它激发了新的观点,并进一步推动了对智能系统的探索。在 TII,他们正在突破 SSLM 和 transformer 模型的界限,以激发生成式 AI 的进一步创新。

目前,TII 的 Falcon 系列语言模型下载量已超过 4500 万次 —— 成为阿联酋最成功的 LLM 版本之一。

Falcon Mamba 7B 论文即将放出,大家可以等一等。

参考链接:

https://huggingface.co/blog/falconmamba

https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/

相关内容

看了AI生成的ASMR吃播...
前段时间,一条用 AI 生成的切水果 ASMR 短视频,在洋抖上爆...
2025-07-12 13:13:44
上海AI实验室团队:如何优...
这项由上海AI实验室和复?dan大学联合开展的突破性研究发表于20...
2025-07-12 13:13:26
月之暗面Kimi K2发布...
月之暗面今天宣布,正式发布Kimi K2模型,并同步开源。Kimi...
2025-07-12 06:12:21
审查中国AI大模型,美国又...
路透社9日报道称,美国官员一直在秘密评估中国的人工智能(AI)大模...
2025-07-11 12:11:57
龙芯中科:通过IP授权、开...
证券之星消息,龙芯中科(688047)07月10日在投资者关系平台...
2025-07-10 21:12:41
OpenAI的开源语言模型...
据报道,OpenAI的开源语言模型即将发布。
2025-07-10 15:12:37

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...