美团发布LongCat-Image图像生成模型,编辑能力登顶开源SOTA
创始人
2025-12-08 10:46:15
0

IT之家 12 月 8 日消息,今日,美团 LongCat 团队正式发布并开源图像生成模型 LongCat-Image 模型,通过高性能模型架构设计、系统性的训练策略和数据工程,以 6B 参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果。

IT之家附官方介绍如下:

LongCat-Image 采用文生图与图像编辑同源的架构设计,并结合渐进式学习策略,在仅 6B 的紧凑参数规模下,实现了指令遵循精准度、生图质量与文字渲染能力的高效协同提升。尤其在单图编辑的可控性和文字生成的汉字覆盖度方面独具优势。

模型架构

亮点一:图像编辑高度可控

LongCat-Image 在图像编辑领域的多个重要基准测试中(如 GEdit-Bench、ImgEdit-Bench)均达到开源 SOTA 水平,实现性能突破的背后在于一套紧密协同的训练范式和数据策略。为有效继承文生图模型的知识和美感,同时避免文生图后训练阶段收窄的状态空间对编辑指令多样性的限制,基于文生图 Mid-training 阶段模型进行初始化,并采用指令编辑与文生图多任务联合学习机制,深化对复杂多样化指令的理解。此外通过预训练阶段的多源数据及指令改写策略,以及 SFT 阶段引入人工精标数据,最终实现了指令遵循精准度、泛化性和编辑前后视觉一致性的共同提升。

风格迁移与属性编辑能力对比

结构编辑与构图编辑的能力对比

亮点二:中文文字生成精准覆盖

针对中文文本渲染这一行业痛点,LongCat-Image 通过课程学习策略来提升字符覆盖度和渲染精准度:预训练阶段基于千万量级合成数据学习字形,覆盖通用规范汉字表的 8105 个汉字;SFT 阶段引入真实世界文本图像数据,提升在字体、排版布局上的泛化能力;RL 阶段融入 OCR 与美学双奖励模型,进一步提升文本准确性与背景融合自然度。此外通过对 prompt 中指定渲染的文本采用字符级编码,大幅降低模型记忆负担,实现文字生成学习效率的跨越式提升。通过该项能力加持,有效支持海报设计、商业广告作图场景中复杂笔画结构汉字的渲染,以及古诗词插图、对联、门店招牌、文字 Logo 等设计场景的生僻字渲染。

文字生成能力对比

此外,LongCat-Image 通过系统性的数据筛选与对抗训练框架,实现了出图纹理细节和真实感的提升。预训练和中期训练阶段严格过滤 AIGC 数据,避免陷入“塑料感”纹理的局部最优;在 SFT 阶段,所有数据均经过人工精筛来对齐大众审美;在 RL 阶段,创新性地引入 AIGC 内容检测器作为奖励模型,利用其对抗信号逆向引导模型学习真实世界的物理纹理、光影和质感。

图像生成综合能力对比

客观基准评测

客观基准测试性能对比

全面的客观基准测试充分验证了 LongCat-Image 的核心竞争力:在图像编辑任务中,ImgEdit-Bench(4.50 分)、 GEdit-Bench 中英文得分(7.60/7.64 分)均达到开源 SOTA 水平,且逼近头部闭源模型水平;在文字渲染方面,ChineseWord 评测以 90.7 分的成绩大幅领先所有参评模型,实现常用字、生僻字的全量精准覆盖;文生图任务上,GenEval 0.87 分、DPG-Bench 86.8 分的表现,使其在生图基础能力上相比头部开源与闭源模型依然具备强竞争力。

综合主观评测

在衡量模型的通用能力时,我们始终将用户的真实体验放在首位。为此,我们采用业界公认的主观评价方法,对 LongCat-Image 在“文生图”与“图像编辑”两大核心场景下的表现进行了系统评估。

在文生图方面采用大规模的人工主观评分(MOS)方法,核心覆盖文本-图像对齐、视觉合理度、视觉真实度、美学质量 4 个维度,LongCat-Image 的真实度相比主流开闭源模型表现出色,同时在文本-图像对齐与合理度上达到开源 SOTA 水平。在图像编辑方面采用严格的并列对比评估(Side-by-Side, SBS)方法,聚焦于综合编辑质量、视觉一致性这两个用户体验的维度,评测结果表明,LongCat-Image 虽然与 Nano Banana、Seedream 4.0 等商业模型存在一定差距,但显著超越了其他开源方案。

人类主观评分(MOS)对比和并列对比评估胜率(SBS)

为了构建一个更透明、开放、协作的开源生态系统,我们全面开源文生图的多阶段模型(Mid-training、Post-training)和图像编辑模型,旨在无缝支持从前沿研究到商业应用的全流程。我们坚信,真正的技术进步源于社区的集体智慧。诚邀广大开发者体验模型、参与共建,让我们共同基于这个高效能模型,探索视觉生成的更多可能。

资源链接:

Hugging Face:

GitHub:

相关内容

智谱GLM-4.6V系列多...
IT之家 12 月 8 日消息,智谱 AI 今日官宣发布并开源 G...
2025-12-08 20:15:56
服装行业退货率高,问题出在...
近日,一家服装潮牌代工厂借助AI快速上新的案例,引发了争议。 不再...
2025-12-08 18:46:22
瞭望 | AI4S重塑科研...
在积极利用AI提升知识积累效率的同时,我们需审慎思考,如何确保科学...
2025-12-08 18:16:14
从“工具”到“体验”:企业...
过去几年,中国数字经济迈入高速迭代期。无论是人工智能的产业应用,还...
2025-12-08 16:15:41
中信建投:AI大模型与应用...
瑞财经 严明会 近日,中信建投指出,DeepSeek V3.2发布...
2025-12-08 15:17:11
自变量机器人参与成立Rob...
2025年深圳国际人工智能展览会上,一台名为“小量”的机器人正有条...
2025-12-08 14:16:12

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...