智谱AI发布能生成汉字的开源文生图模型CogView4 达到SOTA_linux资讯

智谱AI发布能生成汉字的开源文生图模型CogView4 达到SOTA

创始人

2025-03-04 14:20:47

0次

雷递网乐天 3月4日

智谱AI今日宣布，发布首个能生成汉字的开源文生图模型CogView4，称其在DPG-Bench基准测试中的综合评分排名第一，在开源文生图模型中达到SOTA。该模型也是首个遵循 Apache 2.0协议的图像生成模型。

据介绍，CogView4具备较强的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，能生成在给定范围内的任意分辨率图像，同时具备较强的文字生成能力。

CogView4在 DPG-Bench基准测试中的综合评分排名第一，在开源文生图模型中达到 SOTA。DPG-Bench（Dense Prompt Graph Benchmark）是一个用于评估文本到图像生成模型的基准测试，主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

CogView4具有两大技术性：

首先，支持中英双语提示词输入，擅长理解和遵循中文提示词，是首个能够在画面中生成汉字的开源文生图模型，能更好地满足广告、短视频等领域的创意需求。

在技术实现上，CogView4将文本编码器从纯英文的T5 encoder 换为具备双语能力的GLM-4 encoder，并通过中英双语图文对进行训练，使CogView4模型具备双语提示词输入能力。

案例1：CogView4能够将中英文字符自然地融入画面，使海报、文案配图创作更加便捷。

案例2：擅长理解和遵循中文提示词，例如能够画出古诗文中的意境。

任意分辨率，任意长度提示词

其次，支持输入任意长度提示词，能够生成范围内任意分辨率图像，不仅使用户创作更加自由，也提升了训练效率。

CogView4模型实现了任意长度的文本描述（caption）和任意分辨率图像的混合训练范式。

1、图像位置编码

CogView4采用二维旋转位置编码（2D RoPE）来建模图像的位置信息，并通过内插位置编码的方式支持不同分辨率的图像生成任务。

2、扩散生成建模

模型采用Flow-matching方案进行扩散生成建模，并结合参数化的线性动态噪声规划，以适应不同分辨率图像的信噪比需求。

3、架构设计

在DiT模型架构上，CogView4延续了上一代的Share-param DiT架构，并为文本和图像模态分别设计独立的自适应LayerNorm层，以实现模态间的高效适配。

4、多阶段训练

CogView4采用多阶段训练策略，包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布，还确保生成的图像具有高美感并符合人类偏好。

5、训练框架优化

从文本角度，CogView4突破了传统固定token长度的限制，允许更高的token上限，并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时，与固定512 token的传统方案相比，CogView4减少了约50%的token冗余，并在模型递进训练阶段实现了5%-30%的效率提升。

混合分辨率训练使模型能够支持较大范围内的任意分辨率生成，极大地提升了创作的自由度。目标分辨率只需满足以下条件：

- $$512\leq H,W\leq 2048,\ H\times W \leq 2\times1024^2$$

- $$H,\ W == 0\ (mod 32)$$

案例1：以故事作为超长提示词，生成四格漫画

案例2：超复杂提示词，生成精细画面

首个遵循 Apache 2.0的图像生成模型

CogView4模型支持Apache2.0协议，后续会陆续增加ControlNet、ComfyUI等生态支持，全套的微调工具包也将推出。

最新的CogView4-6B-0304版本将于3月13日上线智谱清言（chatglm.cn）。

智谱AI称，作为国内最早的开源大模型公司，始终致力于推动AI普惠。2025年是智谱开源年，还将陆续开源基础模型、推理模型、多模态模型、Agent模型等。

———————————————

雷递由媒体人雷建平创办，若转载请写明来源。

分辨率汉字长度模型训练文本图像智谱支持 CogView 消息资讯提示词 token

上一篇：智谱开源年第一弹：发布首个能生成汉字的开源文生图模型CogView4

下一篇：智谱发布首个支持生成汉字的开源文生图模型CogView4

智谱AI发布能生成汉字的开源文生图模型CogView4 达到SOTA

相关内容

热门资讯