8秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源丨字节北大联合发布
创始人
2025-05-12 13:47:57
0

DreamO团队 投稿

量子位 | 公众号 QbitAI

可控图片生成,如今已经不是什么新鲜事。甚至也不需要复杂的提示词,用户通过简单的文本描述,就能快速生成符合个人需求的创意图像。

不过仍然有一些局限:

比如说,虽然可以实现单一任务(如身份、主体、风格、背景等)的定制化设计,可是一旦条件增多,就会出现“鱼和熊掌不可兼得”的问题。

只有小孩子才做选择题,成年人当然是全都要!

字节跳动与北京大学联合起来,证明了“全都要”的可行性:一种支持多条件组合的统一图像定制化生成框架——DreamO,堂堂登场。

这个框架通过单一模型便可以实现主体、身份、风格及服装参考的多样化定制,并支持不同控制条件的自由组合,非常适应实际应用中的复杂需求。

参考多个主体的生成结果

那么就有人问了,他们是怎么做到的呢?这个框架和现有的商业大模型相比有什么优势呢?

一起来看技术细节。

DreamO:成本更低、速度更快

字节跳动和北大团队提出了统一的图像定制化生成框架DreamO,以极低的训练参数量(400M),就实现了如下图所展示的多种类型高质量图像定制化结果:

该工作旨在通过单一模型完成各种定制化任务。

比如说,以小怪物为参考,让它在山上欢呼:

又比如说,让漂亮的姑娘在花海里起舞:

根据参考,生成一张魔幻风格的城堡:

或者大胆一点——地狱风格的小狗怎么样?

还可以参考多个主体,把他们组合起来:

让隔着时间或者空间的人出现在同一张照片上:

将该模型与GPT-4o等一众商业大模型做对比,尽管在语义理解、定制多样性上还有差距,但该模型展现出了极强的一致性保持能力,甚至在一定程度上超越了一些商业大模型。

与商用模型相比,DreamO开源、成本更低、速度也更快——8~10s即可完成一张图片的定制化生成。

方法整体框架

DreamO的整体框架

该方法基于Flux-1.0-dev构建了一个统一的图像定制框架,支持风格、身份、外观和试穿等功能。

首先,复用Flux的VAE将条件图像编码为隐空间表征,随后序列化,与文本和图像token合并输入Flux模型,为处理条件图像输入,引入了专门的映射层。

另外,该方法为条件隐变量加入了可学习的条件嵌入(CE)和索引嵌入(IE),并通过低秩自适应(LoRA)模块优化模型,从而支持多条件任务。

渐进式的训练策略

直接在所有数据上训练会导致收敛困难,主要由于优化参数容量有限,难以在复杂数据分布中捕捉特定任务能力;而训练数据的图像质量问题也使生成结果偏离Flux的高质量生成先验。

为解决这些问题,DreamO提出了渐进式训练策略

在第一阶段,在主体驱动的数据上优化模型,确保一致性,并利用与模型生成空间分布相似的Subject200K数据集加速收敛。使模型获得了初步的一致性保持能力。

在第二阶段,模型进行全数据训练,逐渐掌握各种任务能力。但生成质量容易受低质量训练样本影响。

在图像质量优化的第三阶段,通过Flux生成40K样本,以原始图像(丢弃95%的信息)为参考进行自我重建。

经过第三阶段优化后,图像的生成质量显著提高,与Flux的生成先验对齐。

针对参考图的路由约束

该方法在DiT架构中设计了路由约束用于精准限制参考图的作用区域。

在条件引导框架中,条件图像与生成结果之间存在交叉注意力关系,如下所示:

表示条件图像与生成结果的相似度。

通过沿条件图维度平均该相似度矩阵,可以得到条件图对生成结果的全局相似度响应。

训练过程中,使用条件物体在生成结果中对应的mask作为ground truth约束条件图的相似度响应范围:

实验结果显示,经过路由约束的训练后,条件图的相似度响应更加集中,生成结果的保真度更高。

另外,为了支持DreamO的多任务优化,作者构建了大规模包含各种任务的训练数据,例如风格迁移、单主体保持、多主体保持、单ID保持、多ID保持、ID风格化,以及虚拟试衣等。

更多细节请参考该方法的技术报告。

论文地址:https://arxiv.org/pdf/2504.16915

项目主页:https://mc-e.github.io/project/DreamO/

代码仓库:https://github.com/bytedance/DreamO

Hugging Face演示:https://huggingface.co/spaces/ByteDance/DreamO

相关内容

聚焦AI+大模型、三维重建...
中新网北京5月31日电 (记者 孙自法)记者5月31日从中国图像图...
2026-06-01 00:57:14
国泰海通:维持海外AI算力...
国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出,O...
2026-06-01 00:54:38
小米开源可控视频音效生成模...
IT之家 5 月 29 日消息,小米大模型应用团队今日发布 Con...
2026-06-01 00:41:13
仁宝电脑与GMI Clou...
(全球TMT2026年5月28日讯)5月28日,仁宝电脑宣布,与美...
2026-05-28 21:09:59
全球首次单机降服万亿巨模D...
从数学、代码、复杂推理,到多轮工具调用,大模型的很多能力的提升都离...
2026-05-28 20:34:56
自变量开源 Wall-OS...
2026-05-28 16:19:28 作者:狼叫兽 自变量机器...
2026-05-28 20:29:33

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...