作者 | OPPO AndesVL 团队
引言
当前端侧多模态大模型普遍面临性能不足、能力有限、适配性差等问题,难以满足端侧对高性能、强隐私、低延迟的需求,成为制约下一代 AI 手机发展的关键。
为此,OPPO AI 中心推出开源的全链路适配的端侧多模态大模型 AndesVL。该模型兼具 SOTA 水平的通用多模态理解推理能力与端侧专项优势,含 0.6B-4B 四档尺寸套件,支持多场景灵活部署,还具备强 GUI 与多语言能力,更将全面开源。其通过先进技术实现端侧效果与效率均衡,为端侧多模态大模型应用树标杆,助力 AI 手机等场景创新。AndesVL 具有通用能力强、端侧能力专、适用范围广、端侧部署好、端测试配快等诸多优势。AndesVL 浮点数模型在多个领域共 30 余个 benchmark 上取得相近尺寸模型的 SOTA 效果,端侧部署的模型实现高达 6.7 倍的峰值解码加速比以及 1.8BPW 的压缩效率。详细的 paper 和开源模型地址如下:
tech report 地址:
https://arxiv.org/pdf/2510.11496
huggingface 地址:
https://huggingface.co/OPPOer
github 地址:
https://github.com/OPPO-Mente-Lab/AndesVL_Evaluation
技术背景
近年来,多模态大模型已在云端各类场景的应用中取得显著成功,而如何在智能手机等终端设备上充分发挥多模态大模型的能力,是下一代 AI 手机能否成功的关键。端侧应用亟需多模态大模型具备高性能、强隐私、低延迟的能力,但目前的端侧多模态大模型普遍存在性能不足、能力有限、适配性差的问题。
具体而言,AndesVL 主要有以下几个亮点:
端侧能力专:AndesVL 针对手机端侧的多语言、GUI 理解需求进行专项提升,使模型兼顾通用能力的同时,在这两项端侧相关能力上也达到 SOTA。
适用范围广:为满足不同资源限制和多样性应用的需求,AndesVL 提供 0.6B、1B、2B、4B 共 4 个阶梯尺寸的模型组合套装。同时,提供各尺寸模型的 Instruct 版和 Thinking 版模型,兼顾效率和效果,既适用于高效的理解生成应用需求也能应对复杂的数学推理规划应用的挑战。
端侧部署好:基于先进的稀疏化技术、量化感知训练技术和编解码加速技术,实现端侧效果和效率的完美均衡,实现从云端模型到端侧模型的跨越。
端侧适配快:以 1+N LoRA 架构支持多场景部署,以 QALFT 技术实现场景独立迭代更新,端侧也能实现和云端一样的高效灵活。
模型架构
AndesVL 是面向实际端侧部署开发的大模型,因此从架构设计起,就综合考虑模型能力和端侧资源、功耗限制的均衡。为适应不同资源限制下的端侧化运行场景,AndesVL 系列模型在统一的架构模式下具备参数范围从 0.6B 到 4B 的 4 个不同尺寸模型,每个模型具有 Instruct 和 thinking 两个版本。统一的架构有利于模型的快速开发迭代和部署应用,不同的模型尺寸适应不同的需求和资源限制场景,而通用指令版和推理版能分别应对通用指令执行和强推理的不同应用场景需求。
具体而言,模型结构包括三部分:视觉编码器(ViT)、多层感知器(MLP)和大语言模型(LLM)。视觉编码器的选型上,1-4B 版本的采用 AimV2-300M,相比更大、更复杂的编码器(如 Qwen2VL-ViT),其尺寸和架构设计在功耗和部署适配性上都更适合端侧使用;应对 0.6B 模型部署资源限制更为严格的要求,则采用更小尺寸的 SigLIP-2-base 作为视觉编码器,在保证效果的同时尽可能减少资源消耗。在基础的视觉编码器上,AndesVL 加入了二维旋转位置嵌入(2D-RoPE),借助其外推能力,使模型能有效处理高低不同分辨率图像的输入。此外,视觉编码器基于 Native Resolution ViT(NaViT) 策略直接处理任意分辨率的输入,能高效处理任意宽高比和分辨率的图像,同时采用像素重排 (pixel shuffle) 无损压缩序列长度,提高处理性能。在大语言模型部分,AndesVL 采用成熟的 Qwen3 系列语言模型,以支持 Instruct 和 Thinking 两种模式的模型实现。
训练方案
预训练阶段
AndesVL 的预训练阶段包含三个步骤:视觉 - 语言对齐、视觉 - 语言联合预训练和多任务预训练:
视觉 - 语言对齐
视觉 - 语言联合预训练
视觉 - 语言联合预训练阶段解冻 LLM 的参数,并以相对较低的学习率进行全参数预训练,同时此阶段将 LLM 的上下文窗口从 2,048 扩展到 8,192。
这一阶段的训练数据主要由图文交错的数据组成,这将传统的纯文本预训练扩展为包含图像输入的形式。为了保留模型的纯文本处理能力,提升指令理解能力和基本的视觉理解能力,他们在训练中也混入了一部分纯文本数据、一定数量的 VQA 数据和第一阶段中用于视觉 - 语言对齐的数据。为防止单向自回归的 Transformer 中图像出现在序列末尾时导致无法有效学习的问题,训练时采取随机位置替换的方式,即以 50% 的概率随机将图像从原始位置提前至文本内容之前,并用对应的索引代替原图像位置。
相比于 Instruct 版的训练,Thinking 版模型从此阶段起就开始引入大量长推理数据,包括图文混合的长推理数据和纯文本的长推理数据,在保持原 LLM 的数学推理能力的同时,激活多模态模型的长推理能力。
多任务预训练
后训练阶段
AndesVL 的后训练主要应用的技术包括:监督微调 (SFT) 和强化学习对齐 (RL)。其中 RL 阶段对 Instruct 模型和 Thinking 模型分别使用混合偏好优化 (MPO) 和 GRPO。因此后训练数据包含三部分,通用的微调数据、MPO 数据和 GRPO 数据。
监督微调
监督微调的通用数据集经过精心设计,能够将多种输入模态引入模型,从而增强强大的表征学习能力。该数据集涵盖了多种任务目标,例如图像描述、图像问答、文本摘要、代码生成等。
监督微调数据经过多阶段的数据过滤流程,包括单模态过滤、任务聚类及基于 LLM 的评分机制,最终构建了一个包含约 1600 万条数据的高质量微调数据集。
混合偏好优化
直接偏好优化(DPO)已成为将大语言模型(LLM)与人类偏好对齐的主流方法,由于其在语言模型对齐中的良好表现,近期一些研究已将 DPO 应用于多模态场景中。然而,在多模态大语言模型中应用 DPO 仍面临两大挑战:一是缺乏全面且高质量的多模态推理偏好数据集,二是 DPO 本身无法评估单个回答的绝对质量。为应对这些问题,InternVL 团队提出了一种新的方法——混合偏好优化(MPO),该方法已在多个多模态推理评估任务中展现出更优的性能表现。
AndesVL 采用了 MPO 的训练方法,并针对性设计了数据构造 pipeline,由此生成了大量 MPO 训练数据,结合开源数据 MMPR,显著提升了模型的整体能力。
GRPO 训练
根据 DeepSeek 的实验结论,小模型可以从大模型中继承思维链的推理能力,因此 AndesVL 采用了数据蒸馏的方式,通过设计数据构造的 pipeline 来大批量获取高质量的多模态长思维链数据。
借鉴 Qwen3 思考模式切换的设计思路,AndesVL 采用了两类数据集:一种包含详细推理步骤的“有思考过程”数据集,另一种省略推理过程的“无思考过程”数据集。这种策略使得模型可以在思考和不思考之间灵活切换。
GRPO 阶段我们采用多模态推理数据和纯文本推理数据的两阶段训练方案,同时根据数据难度从易到难做课程学习充分激发模型的推理能力,使其在数学推理等领域的效果大幅提升,同时保持非推理领域的效果。
端侧部署解决方案:算法优化与高效部署的创新实践
为应对端侧 AI 规模化落地的挑战,OPPO 基于自研的 AndesVL 多模态模型,构建了一套从底层算法优化到上层部署架构的完整技术方案。该方案聚焦于算法优化与端侧部署两大方向,通过在模型压缩与架构设计上的协同创新,实现了推理效率、部署灵活性与迭代经济性的显著提升。
算法优化:稀疏化 +QAT,
奠定高效部署基石
在算法层面,我们通过前沿的稀疏化压缩与量化感知训练技术,从源头削减模型的计算与存储开销,同时结合先进编解码算法,为端侧高效推理奠定坚实基础。
模型稀疏化压缩:突破 75% 稀疏度,BPW 低至 1.8+bit
我们实现了大语言模型稀疏化技术的关键突破。OPPO 与联发科联合优化模型端侧内存压缩技术,通过算法与硬件的协同设计,在极小的效果损失前提下,将模型权重稀疏度提升至 75% 以上,平均每参数比特数(BPW)成功降至 1.8bit 以下,结合联发科天玑 9500 芯片的硬件内存压缩技术,OPPO 实现模型端侧内存占用降低 30.9%,推理速度提升 45%。成功在压缩率、推理速度与精度保持之间达成了高效平衡。
量化感知训练(QAT):构建从训练到部署的可预测通路
我们构建了覆盖基模型与场景 LoRA 的双重量化感知训练体系,确保量化模型在端侧的效果可靠性与迭代效率。
基模型 QAT 框架:支持权重(W2/W3/W4/W8)与激活(A8/A16)的细粒度混合精度配置。其核心创新在于建立了从“静态 QAT 训练”到“端侧 PTQ 结果”的无缝映射机制,有效消除了因校准数据分布差异等因素引入的精度波动,大幅提升了模型在真实硬件上的表现确定性与稳定性。
QALFT 框架(Quantization-Aware LoRA Fine-Tuning):在“1+N LoRA”架构下,不同的场景 LoRA 会产生不一样的激活范围,这导致基模型在量化过程中必须考虑所有场景的激活范围才能保证最佳的量化效果,因此当场景发生更新或新增时,都需要对基模型重新量化,这影响了端侧模型的部署和迭代的效率。为了解决上述问题,我们与联发科联合开发了端侧 LoRA 量化感知训练框架 QALFT(Quantization-Aware LoRA Fine Tuning)。该技术通过在云端仿真端侧已经量化好的基模型的计算结果,实现对场景 LoRA 进行量化感知训练,让场景 LoRA 在训练阶段拟合端侧已经产生的量化误差。基于 QALFT 框架,真正实现了场景的新增和更新彼此独立,提升端侧部署效率与灵活性,并最大程度保证端上的算法效果。
QALFT 框架的核心思想是模型、数据、训练器三方解耦,各组件可在不同训练流程中复用。同时,Runtime 库与上层设施隔离,保证训练流程可以在不同平台快速迁移。通过使用 QALFT 训练套件,我们可以快速在 MTK 硬件平台上进行模型训练和部署。
编码压缩与解码加速:突破长上下文与自回归生成瓶颈
为克服长文本输入与自回归生成带来的端侧推理延迟,我们针对 LLM 的推理流程进行了深度优化。
编码压缩:针对长提示下键值缓存(KV Cache)内存暴涨的业界难题,我们基于长文本特征稀疏的特性,研发了端侧专用编码加速方案 OKV。该方案通过对 KV 缓存进行智能稀疏化,在仅保留 25% 缓存的条件下,效果即可媲美全量缓存,同时成功在端侧支持了高达 128K 的上下文长度,为用户流畅的长文本交互体验提供了核心技术保障。
解码加速(投机解码):为破解自回归解码的串行瓶颈,提升端侧模型的能耗效率,我们整合改进了 EAGLE-2、HASS 等前沿投机解码算法,结合 OPPO 的模型压缩算法,AndesVL 的峰值解码加速比达到 6.7 倍,显著提升了端侧 AI 的响应速度。
端侧部署:1+N LoRA 架构实现低成本、
高灵活的规模化扩展
在部署架构层面,我们创新性地采用了“1+N LoRA”策略,以一个强大的多模态基模型结合多个轻量级、可插拔的场景专用 LoRA 模块,有效应对端侧设备资源受限与场景多样化的双重挑战。
该架构允许在运行时动态加载不同的 LoRA 来执行相应任务,不仅显著降低了新增功能所需的存储空间与更新成本,更使得 OPPO 能够基于同一基模型,快速发布并迭代多款运行于 AI 设备上的端侧应用,实现了高效、经济的规模化部署与敏捷迭代。
评测结果
整体能力
上表展示了不同多模态大模型 (MLLM) 在学术基准测试中的详细评估结果。4B-Thinking 模型 70.9 分,比第二名 InternVL3.5-4B 高出 3.2 分。在 6 大垂直领域,AndesVL-4B 均取得第一的分数,显示出其在各种多模态场景下的卓越性能。4B-instruct 在多个垂直领域同样表现出色,尤其是在多图像理解和多语言任务。AndesVL-2B-Thinking 总分 64.4,在同规模模型中排名第一,其在多图像理解和幻觉缓解方面性能突出。1B 和 0.6B 模型优势明显,thinking 和 instruct 模型分别位列同尺寸前两名。特别是 0.6B 模型,相比 InternVL3.5-1B 等各大尺寸的模型,也具有一定优势。
这些结果凸显了 AndesVL 系列模型在处理一系列需要多模态感知、理解和推理的现实世界任务方面的出色能力。同时,0.6B-4B 的多样性的尺寸范围结合其强大的多模态能力,AndesVL 十分适合应用于各类场景,特别是计算资源紧缺的手机移动场景。
垂域能力
数学和逻辑推理能力
AndesVL-4B-Thinking 在各类数学与推理基准测试中以 58.3 的综合得分位居榜首,特别是在 MathVista、MathVerse 和 WeMath 基准测试中较先进模型展现出显著优势。AndesVL-2B-Thinking 模型以 45.7 的综合得分位列第二,与最高分 49.9 十分接近。此外,AndesVL 的 1B 和 0.6B 模型在各自规模组别中仅在综合得分上最高,而且在大多数单项基准测试中也是第一。
这些结果印证了训练策略的有效性:在预训练阶段利用大规模、优质的长链思维链多模态数据激活推理能力后,在后训练阶段通过强化学习显著增强了模型的视觉 - 文本联合推理能力。
视觉文本理解能力
对于更小尺寸的模型,AndesVL-2B-Instruct、AndesVL-1B-Thinking 和 AndesVL-0.6B-Instruct 模型均在各自规模组别中夺得第一,展现出全系列模型的优秀视觉文本理解能力。
多图理解能力
AndesVL-4B 在多项多图像基准中表现优异,获得 67.8 的最高分。更小尺寸的模型依旧继承了 4B 模型的优势,0.6B 模型得分 53.1,相比 1B 模型无明显精度下降。这一优势表明,AndesVL 采用的先进预训练策略和增强的训练数据集,通过同时理解和分析多幅图像之间的关系,显著提升了其捕捉和推理图像间关系的能力。
通用问答理解能力
AndesVL 模型(4B、1B 和 0.6B)在各自尺寸中取得了最佳精度,2B 版本也获得极具竞争力的成绩。详细分析显示,AndesVL 在 MME 和 RealWorldQA 上展现出优异性能。这表明我们的模型能够提取鲁棒图像特征,并展现出强大的真实场景理解能力,能够有效地处理复杂且动态的任务。
幻觉抑制能力
AndesVL 各尺寸模型均排名第一,4B 和 0.6B 模型分别得分 74.8 和 65.9,与其他同尺寸模型相比有显著优势,而且这种优势在更小尺寸模型上更加明显。这表明我们的架构在保持高精度的同时,还提供了优异的幻觉缓解能力,即使在最小的 0.6B 版本中也依旧如此。
多语言理解能力
AndesVL 的 Thinking 和 Instruct 模型都展现出优异的多语言能力,取得 64.9 的最高分,比之前的最佳模型 Ovis2-4B 高出 1.5 分。这种专业的多语言能力可以使模型的多模态能力能够迁移到多个语种,从而将应用扩展到更广泛、更多样化的全球受众。
UI 理解能力
AndesVL 模型在 ScreenSpot 和我们自建的 AndesUI 评测集上均取得了领先精度。这些结果共同证明了 AndesVL 在 UI 理解和应用方面的丰富经验和独特的竞争优势。
on-device 效果和性能评测
我们在多个公开评测集进行端侧精度和推理速度的评测,展示 OPPO 在端侧模型精度优化和推理加速方面的成果。
量化感知训练
Top1-accuracy 体现了模型在量化前后解码行为的一致性。我们在端侧验证了经过量化感知训练(QAT)前后的 Ansdes-VL-4B 进行 PTQ(W4A16) 之后的精度,实验结果显示 OPPO 自研的 QAT 训练框架可以显著降低模型在端侧的量化损失。
Cache Eviction
我们成功将自研的 OKV 端侧编码压缩方案应用在 OPPO 亮点功能 - 通话摘要上,可以看到在 50% 压缩率的实验条件下,相比 SnapKV 这一经典方案,模型在 rouge-1 指标上提升超过 10%。在 25% 压缩率下甚至媲美全量 KV 缓存效果。
Speculative Decoding
结合自研的投机解码算法、模型稀疏化及联发科天玑 9500 芯片的硬件压缩技术,在 AndesVL-4B 上,我们实现了比无压缩优化的自回归模型高达 6.7 倍的峰值解码加速比。通过极致的模型压缩,模型的 BPW 也大幅下降至 1.8。
AndesUI benchmark
为增强 AndesVL 对智能手机 UI 的理解能力,OPPO 多模态大模型团队构建了一个专注于 UI 理解的数据集,名为 AndesUI。此数据集共收集了 90 款应用,其中包括来自 OPPO 软件商店的 65 款热门下载应用,覆盖用户高频使用的多个类别,以及 25 款 ColorOS 预装应用。标注人员被要求截取每款应用中不同且具有异构特性的页面截图,确保每张截图包含独特的布局和内容。最终共收集了来自第三方应用的 10000 张截图和来自 ColorOS 预装应用的 2500 张截图。
数据示例如下:
模型输出示例
下面展示了 AndesVL-4B 模型在各个场景的输出示例:
未来展望
OPPO 多模态大模型团队提出的 Andes-VL 从模型架构、训练方法、端侧部署、模型应用等多个方面提出了针对端侧多模态大模型训练部署应用的综合解决方案。当前该模型在综合效果、数学推理、GUI 理解、多语言都达到了同量级模型的领先水平,并开源相关模型推动行业技术进步。
未来该团队将会在视觉编码器解决方案、后训练方案、知识蒸馏机制、融合文本视觉语音三模态的一体化模型等方向继续发力,相信 OPPO 将不断在手机端侧实践和应用这些技术,给用户提供更安全、更快捷、更智能的交互体验,也将推动整个行业向更高层次的技术革新迈进。