字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持
创始人
2025-09-04 13:43:58
0

字节UXO团队 投稿

量子位 | 公众号 QbitAI

图像生成中的多指标一致性问题,被字节团队解决了!

字节UXO团队设计并开源了统一框架USO,让看上去不关联的任务相互促进, 实现风格迁移和主体保持单任务和组合任务的SOTA

USO通过单一框架能统一之前那些看似孤立的任务包括主体、身份保持和风格化编辑,参考图风格迁移,同时保持主体和风格参考,甚至更抽象复杂的多风格迁移,是实打实的六边形战士。

网友们争相围观,甚至有人直接拿来和当前火爆的闭源模型对比,发现USO弥补了难以同时做好主体保持和风格迁移的短板。

一个模型搞定人物/主体/风格保持

通过单一模型且仅通过一张参考图,USO就能搞定你想要的主体、人物或是风格。

比如说,以卡通人物为例,让他在街上驾驶小车:

又比如说,积木风格,让这个男人在咖啡厅看书:

或者前阵子大火的吉卜力风格,也可以通过参考风格实现,比如一个男孩站在巨大的猫前“

或者抽象的材质参考,也能轻松处理,比如生成一个大厨在炒菜:

那么再大胆点,混合风格呢,比如生成一个男子:

或者同时参考人物ID和风格图片,然后让她抱着一只猫呢,可以看到最终结果在保留ID基础上完美还原扁平风格(设计党狂喜):

以上种种应用场景,USO都能轻松处理,甚至画面质量不输一些商业大模型。

为了全面评估模型性能,团队首次设计了一个USO-Bench,全面评估不同任务类型的性能,分别包括主体驱动,风格驱动以及主体风格混合驱动生成,并且对比了一众最新模型。

最终,UNO在三大任务上都处于领先水平。

并且研究团队还进行了用户研究,结果显示,USO在所有评估维度上都获得了较高评价, 特别是主体一致性、风格一致性和画面质量上表现最为突出

跨任务自解耦

USO采用了一种 “跨任务自解耦”的新范式,核心思想是让模型根据不同任务类型学习想要包含的特征,从而从根本上增强模型的学习能力。

在模型架构上,USO以开源模型FLUX.1 dev为基础,设计了风格对齐训练以及内容-风格解耦训练:

  • 首先将SigLIP提取的多层风格特征对齐到文本空间,使其成为一个具备风格迁移能力的模型;

  • 随后引入VAE内容特征,基于三元组数据做风格-内容解耦训练。

此外研究团队首次提出了 风格奖励学习(SRL)算法,这是一种为Flow Matching设计的带参考图的强化学习算法。

其奖励函数来自衡量风格一致性的奖励模型数学映射,配合预训练损失监督模型训练,最终进一步促进内容和风格的解耦。

另外作者也提到,强化学习的加入让模型在别的任务上也得到了性能提升,进一步验证跨任务对齐的有效性。

在数据方面,团队构建了一套 跨任务数据合成框架,创新性地提出同时构建布局改变和布局保留的三元组数据。

通过训练UNO模型得到一个风格化和去风格化的专家模型,然后利用这两个专家模型生成大批量三元组数据,最后通过VLM过滤出用于训练USO的数据集。

更多细节请参考该方法的技术报告。

论文地址:https://arxiv.org/abs/2508.18966

项目主页:https://bytedance.github.io/USO/

代码仓库:https://github.com/bytedance/USO

HuggingFace在线demo:https://huggingface.co/spaces/bytedance-research/USO

相关内容

聚焦AI+大模型、三维重建...
中新网北京5月31日电 (记者 孙自法)记者5月31日从中国图像图...
2026-06-01 00:57:14
国泰海通:维持海外AI算力...
国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出,O...
2026-06-01 00:54:38
小米开源可控视频音效生成模...
IT之家 5 月 29 日消息,小米大模型应用团队今日发布 Con...
2026-06-01 00:41:13
仁宝电脑与GMI Clou...
(全球TMT2026年5月28日讯)5月28日,仁宝电脑宣布,与美...
2026-05-28 21:09:59
全球首次单机降服万亿巨模D...
从数学、代码、复杂推理,到多轮工具调用,大模型的很多能力的提升都离...
2026-05-28 20:34:56
自变量开源 Wall-OS...
2026-05-28 16:19:28 作者:狼叫兽 自变量机器...
2026-05-28 20:29:33

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...