智谱AI发布能生成汉字的开源文生图模型CogView4 达到SOTA
创始人
2025-03-04 14:20:47
0

雷递网 乐天 3月4日

智谱AI今日宣布,发布首个能生成汉字的开源文生图模型CogView4,称其在DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到SOTA。该模型也是首个遵循 Apache 2.0协议的图像生成模型。

据介绍,CogView4具备较强的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。

CogView4在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。DPG-Bench(Dense Prompt Graph Benchmark)是一个用于评估文本到图像生成模型的基准测试,主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

CogView4具有两大技术性:

首先,支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求。

在技术实现上,CogView4将文本编码器从纯英文的T5 encoder 换为具备双语能力的GLM-4 encoder,并通过中英双语图文对进行训练,使CogView4模型具备双语提示词输入能力。

案例1:CogView4能够将中英文字符自然地融入画面,使海报、文案配图创作更加便捷。

案例2:擅长理解和遵循中文提示词,例如能够画出古诗文中的意境。

任意分辨率,任意长度提示词

其次,支持输入任意长度提示词,能够生成范围内任意分辨率图像,不仅使用户创作更加自由,也提升了训练效率。

CogView4模型实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。

1、图像位置编码

CogView4采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。

2、扩散生成建模

模型采用Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。

3、架构设计

在DiT模型架构上,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计独立的自适应LayerNorm层,以实现模态间的高效适配。

4、多阶段训练

CogView4采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布,还确保生成的图像具有高美感并符合人类偏好。

5、训练框架优化

从文本角度,CogView4突破了传统固定token长度的限制,允许更高的token上限,并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时,与固定512 token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升。

混合分辨率训练使模型能够支持较大范围内的任意分辨率生成,极大地提升了创作的自由度。目标分辨率只需满足以下条件:

- $$512\leq H,W\leq 2048,\ H\times W \leq 2\times1024^2$$

- $$H,\ W == 0\ (mod 32)$$

案例1:以故事作为超长提示词,生成四格漫画

案例2:超复杂提示词,生成精细画面

首个遵循 Apache 2.0的图像生成模型

CogView4模型支持Apache2.0协议,后续会陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也将推出。

最新的CogView4-6B-0304版本将于3月13日上线智谱清言(chatglm.cn)。

智谱AI称,作为国内最早的开源大模型公司,始终致力于推动AI普惠。2025年是智谱开源年,还将陆续开源基础模型、推理模型、多模态模型、Agent模型等。

———————————————

雷递由媒体人雷建平创办,若转载请写明来源。

相关内容

魏牌V9X预售价37.18...
魏牌V9X正式开启预售,共推出3款车型,预售价37.18万-41....
2026-04-18 11:15:34
Cloudflare公测邮...
IT之家 4 月 18 日消息,Cloudflare 于 4 月 ...
2026-04-18 11:15:33
Google正式推出面向m...
谷歌近日正式发布了面向macOS平台的Gemini原生应用程序,用...
2026-04-18 11:13:16
从“全民养龙虾”到AI调用...
近期,一则数据引发全球科技界关注:根据OpenRouter最新数据...
2026-04-13 21:42:20
白天练AI,晚上“练队友”
羊城晚报记者 刘克洪 11日至12日,2026电竞粤超深圳站在深圳...
2026-04-13 13:53:33
统一VLA范式!港科大开源...
新智元报道 编辑:LRST 【新智元导读】当前具身智能的VLA(...
2026-04-13 13:51:15

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...