原创 10B级模型SOTA,超8倍参数「大」模型,智谱开源GLM-4.1V-Thinking
创始人
2025-07-02 15:40:54
0

多模态大模型正在从“看得见”走向“看得懂、想得通”。

智谱正式发布 GLM-4.1V-Thinking 系列模型,并率先开源 GLM-4.1V-9B-Thinking,标志着智谱 GLM 视觉大模型向高阶认知迈出了关键一步。

该模型引入 课程采样强化学习(RLCS, Reinforcement Learning with Curriculum Sampling) 策略,在多个复杂推理任务中实现能力突破,整体性能达到 10B 级别视觉语言模型的领先水平。在 18 项权威评测中,GLM-4.1V-9B-Thinking 的表现已可比肩甚至超越参数量高达 72B 的 Qwen2.5-VL-72B,充分展示出结构设计与训练策略的先进性与效率。

论文链接

  • https://arxiv.org/abs/2507.01006

开源列表:

  • Github:
  • https://github.com/THUDM/GLM-4.1V-Thinking
  • ModelScope:
  • https://modelscope.cn/organization/ZhipuAI
  • Hugging Face:
  • https://huggingface.co/THUDM
  • HuggingFace 体验链接:
  • https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
  • 魔搭社区体验链接:
  • https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

API:

  • API 接口文档:
  • https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

模型效果

GLM-4.1V-9B-Thinking 通过引入「思维链」(Chain-of-Thought)推理机制,在回答准确性、内容丰富度与可解释性方面,全面超越传统的非推理式视觉模型,在28项评测任务中有23项达到10B级别模型最佳,18项任务持平甚至超过8倍参数量的Qwen-2.5-VL-72B。

模型能力

GLM-4.1V-9B-Thinking 通过有效的混合训练融合了丰富的多模态模型能力,包括但不限于:

  • 视频理解:能够解析最长两小时的视频内容,通过推理对视频中的时间、人物、事件和逻辑关系进行准确分析;
  • 图像问答:对图像中的内容进行深入分析和解答,具备较强的逻辑能力和世界知识;
  • 学科解题:支持对数学、物理、生物、化学等学科问题的看图解题,通过推理给出详细的思考过程;
  • 文字识别:对图片和视频中的文字和图表内容进行准确抽取和结构化输出;
  • 文档解读:对金融、政务、教育等领域的文档内容进行准确的原生理解、抽取、提炼和问答;
  • Grounding:识别图片中的特定区域并抽取坐标位置,支持各种需要定位信息的下游任务;
  • GUI Agent:识别网页、电脑屏幕、手机屏幕等交互界面元素,支持点击、滑动等指令执行能力;
  • 代码生成:能够基于输入的图片文字内容自动编写前端代码,看图写网页。

典型示例

1. 理解图表并解答问题

Prompt:请找出这张图中年度利润最高的公司,以及该公司的最大部门?

输出:Sony has the highest annual profit at $6.3B. For Sony, the note states, “Media is Sony’s second - largest segment after game consoles.” Thus, the largest segment is game consoles.

2. 解答2025高考数学真题

Prompt:请帮我解决这个题目,给出详细过程和答案

输出:[解题过程略]

  • 已知 PA ⊥ 平面 ABCD ,故 PA ⊥ AD 且 PA ⊥ AB。
  • 又 AB ⊥ AD ,AB ⊥ AD ,且 PA 与 AB 的公共点为 A ,因此 AD ⊥平面 PAB。
  • 由于 AD ⊂ 平面 PAD,故平面 PAB平面 PAD。

3. 准确认知图形用户界面并创建日程

Prompt:在APP中,帮我创建一个两周后3点与史密斯博士的会议

输出:Action: {"action_type": "click", "box_2d": [[27,840,122,885]]}

模型原理

1. 模型架构

GLM-4.1V-Thinking 模型架构由三个核心模块组成:视觉编码器(ViT Encoder)、多层感知机适配器(MLP Projector)以及语言解码器(Language Decoder)。

我们选用 AIMv2-Huge 作为视觉编码器,GLM 作为语言解码器。在视觉编码器部分,我们将原始的二维卷积替换为三维卷积,从而实现对视频输入在时间维度上的下采样,有效提升了处理效率。对于静态图像输入,则通过复制帧的方式以保持输入格式的一致性。

为进一步增强模型对任意图像分辨率和宽高比的适应能力,我们引入了两项关键改进。

其一,融合二维旋转位置编码(2D-RoPE),使模型能够稳定处理极端宽高比(如超过200:1)和超高分辨率(如4K以上)的图像;

其二,为保留ViT预训练模型的原有能力,我们保留了其可学习的绝对位置嵌入,并通过双三次插值方式在训练过程中动态适配不同分辨率输入。

在语言解码器中,我们对原始的旋转位置编码(RoPE)进行了三维扩展(3D-RoPE)。这一设计显著增强了模型在多模态输入处理中的空间理解能力,同时保持了其在文本生成方面的原始性能。

2.训练流程

GLM-4.1V-Thinking 的训练过程分为三个阶段:预训练(Pretraining)、监督微调(SFT) 和 强化学习(RL)。

(1)预训练阶段

预训练分为两个连续子阶段:多模态预训练与长上下文持续训练。

多模态预训练

初始阶段旨在构建模型的通用多模态理解能力。我们使用两路张量并行策略,对所有参数进行了 120,000 步训练,序列长度为 8,192,全局批量大小为 1,536。训练数据涵盖图像字幕、交错图文、OCR、Grounding、指令响应等多种模态。为提高训练效率,我们采用样本拼接的数据打包策略,将可变长度样本压缩成接近最大长度的序列,充分利用显存资源。

长上下文持续训练

为增强模型对高分辨率图像、视频序列及超长文本的处理能力,我们引入了更复杂的训练数据,包括视频帧序列和长度超过 8K tokens 的图文混合内容。该阶段将序列长度扩展至 32,768,采用混合并行策略(2路张量并行 + 4路上下文并行),并继续训练 10,000 步,保持全局批量大小为 1,536。

(2)监督微调(SFT)

在微调阶段,我们特别构建了一个高质量的 CoT(思维链)训练集,用于强化模型的长篇因果推理能力。训练样本统一采用以下格式:

{推理过程} {最终答案}

微调使用全参数训练,序列长度为 32,768,批量大小为 32。训练语料来自多个任务场景,包括数学题解、多轮对话、代理规划与复杂指令跟随,涵盖图文、多模态及纯文本等不同类型。这一阶段不仅提高了多模态推理能力,也保持了模型在语言理解与逻辑推演方面的稳定表现。

(3)课程采样强化学习(RLCS)

在 SFT 基础上,我们引入强化学习全面优化模型性能。

我们结合两种方法:基于可验证奖励的强化学习(RLVR) 和 基于人类反馈的强化学习(RLHF),覆盖多个关键任务维度:

  • STEM领域问题求解(数学、物理、化学)
  • 多模态信息定位与理解(OCR、实体定位、视频分析)
  • 智能体任务(GUI交互、代理规划)
  • 文档与图表理解、逻辑推理、复杂指令执行等

通过课程采样,在这些任务上开展由易而难的动态大规模强化学习训练,模型在实用性、准确性和稳健性等方面取得了显著提升。

更多信息请参考技术报告与开源代码。

相关内容

画到哪,动到哪!字节跳动发...
Angtian Wang 是字节跳动的研究员,研究方向包括视频生成...
2025-07-03 13:13:17
荣耀发布年度最强AI旗舰全...
2025年7月2日,全球领先的AI终端生态公司荣耀(HONOR)在...
2025-07-03 12:42:33
深度:由百度文心4.5模型...
向开源致敬 还记得1991年那个看似平常的时刻吗?一位名不见经传的...
2025-07-03 06:12:11
华为盘古大模型首次开源!昇...
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 华为盘古大...
2025-07-02 21:12:24
冲击IPO上市关口,智谱获...
智谱CEO张鹏 IPO上市辅导关口,国产AI大模型“六小虎”之一的...
2025-07-02 19:11:24
原创 ...
多模态大模型正在从“看得见”走向“看得懂、想得通”。 智谱正式发布...
2025-07-02 15:40:54

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...