机器之心原创
编辑:杜伟
「Photoshop is dead」,已经成为最近 AI 创作者圈中讨论最热的话题之一。
随着图像编辑与生成模型进入到了又一个集中爆发期,这个专业创意软件长久以来的王座地位受到了前所未有的冲击。
尤其是引领这波多模态生图技术升级潮流的谷歌 Nano Banana 以及字节 Seedream4.0、阿里 Qwen-Image-Edit-2509,它们涌现出了更多新的能力与玩法,比如 OOTD 穿搭、文字渲染、生成电影分镜。在无需掌握深度修图技能的前提下,这些模型使得创作者开始更多地关注「如何让生图结果更可控、更有创意、更具产品化价值。」
从技术路线来看,以 Nano Banana 为代表的模型通过多模态指令,将语言理解、视觉识别与生成控制等不同的能力融合在一起,实现更自然的创作体验。不过,随着使用场景的不断拓展,这类指令驱动的编辑与生成在实际操作中也逐渐暴露出了一些不容忽视的局限。
比如编辑任务中通常依赖的语言指令有时会描述不清,需要结合参考图像以及额外的文本说明;生成任务对于具体物体表现良好,但处理起抽象概念(发型、妆容、纹理、打光、风格等)来往往力不从心。这些问题需要更优的技术解决方案。
两周前,港科大讲座教授、冯诺依曼研究院院长贾佳亚团队开源了他们的最新成果 DreamOmni2,专门针对当前多模态指令编辑与生成两大方向的短板进行了系统性优化与升级。该系统基于 FLUX-Kontext 训练,保留原有的指令编辑与文生图能力,并拓展出多参考图的生成编辑能力,给予了创作者更高的灵活性与可玩性。
根据团队的说法,不论是具体物体还是抽象概念的编辑与生成,DreamOmni2 都可以取得显著优于当前 SOTA 开源模型的表现,在一些方面甚至比 Nano Banana 效果都要好。我们来一睹效果:
基于指令的多模态编辑:让第一张图像(源图像)中女子的帽子拥有与第二张图像(参考图像)中毛衣相同的配色方案。
基于指令的图像生成:图 1 被挂在卧室的墙上,图 3 中的杯子变成与图 2 中盘子相同的材质,并被放置在桌子上。
DreamOmni2 引起了海外创作者的关注与热议。有人给予了高度评价,认为它将颠覆人们对图像生成与编辑的认知;还有人给它冠上了「King Bomb」的称号,并特别称赞了其抽象概念理解能力。Youtube 还出现了大量的介绍以及使用经验分享视频。
开源两周以来,DreamOmni2 收获了开源社区的大量认可,在 GitHub 上已经积累了 1.6k 的 Star 量。
代码地址:https://github.com/dvlab-research/DreamOmni2
如果说 Nano Banana 开启了多模态 AI 图像编辑生成的新纪元,那么 DreamOmni2 有助于整个行业将这种改图与生图的能力推向深水区,为创作者提供了一个语义理解更全面、创意延展性更强的智能引擎。
接下来,机器之心进行了一手实测,一起来看看效果如何。
一手实测,看看强在哪里?
我们首先测试了 DreamOmni2 的基于指令的多模态编辑能力。
体验地址:https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
在这一任务中,我们给模型输入了两张图片和一条提示,提示词为「将图 1 中熊猫的背景替换为图 2,生成证件照(Replace the background of the panda in picture 1 with picture 2 to generate an ID photo)」。
只见 DreamOmni2 思考了很短的时间,一张熊猫证件照就 P 好了。生成的图片背景符合要求,连毛发细节都被保留得恰到好处。以前修一张证件照,得花上好几分钟精调细节;现在只需一句话,DreamOmni2 就能自动完成,而且效果丝毫不输专业修图。
看起来,这类换背景的任务已经难不倒 DreamOmni2 了。既然如此,我们上难度,尝试让模型将一张照片的风格转换为另一种风格。这类任务对模型的理解力与生成控制力要求更高:它不仅需要识别画面内容,还要掌握风格的语义特征,如色彩氛围、笔触质感等。
同样地,我们输入两张图片,外加一句提示「使第一张图片与第二张图片具有相同的图片风格(Make the first image have the same image style as the second image)」。
DreamOmni2 的表现同样令人惊喜,它不仅精准地还原了参考图的色调与氛围,还将那种风格感无缝融入原图。
既然 DreamOmni2 的效果如此能打,不禁让人好奇,它与当前主流的生图模型(比如 GPT-4o 和 Nano Banana)相比,究竟谁更胜一筹?要知道,DreamOmni2 可是开源的,这一点本身就让它在多模态生图领域显得格外特别。
输入如下两张图,提示为「将第一幅图中的夹克替换为第二幅图中的衣服(Replace the jacket in the first image with the clothes in the second image)」。
DreamOmni2 准确识别出了主体与衣服的层级关系,不仅成功替换了衣服,还自然地保留了人物脸部特征与姿态,只有衣领略有出入。
我们再来看看 GPT-4o 的结果,输入同样的图片和提示。GPT-4o 很容易看出是 AI 合成的,尤其是人物的脸部,看起来很不自然,像是被后期磨皮过度。不仅如此,原本插兜的动作也被改动了,人物整体比例显得很不协调。
随后,我们又测试了谷歌 Nano Banana,人物的姿态与五官保持完好,衣物替换后的整体视觉效果自然协调,但衣物颜色和形态发生了变化,logo 也消失了。
对比下来,我们发现 GPT-4o 表现最差,而 DreamOmni2 和 Nano Banana 整体效果明显更胜一筹。
接着,我们又测试了 DreamOmni2 基于指令的多模态生成能力。
测试地址:https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
输入如下图片,然后要求 DreamOmni2「将第一张图片中的徽标印在第二张图片中的物体上并放置在桌子上(The logo from the first image isprinted on the object from the second image and placed in the desk)」。
DreamOmni2 准确理解了语义,不仅正确提取出第一张图片中的徽标元素,还将其自然地贴合到第二张图片中的物体表面,光影效果非常好。此外,模型自动识别了「桌面」这一场景语境,甚至桌面上出现了杯子倒影。
我们又测试了一个更具挑战性的任务,根据手绘草图,让模型生成一张姿态相同的图片。这类任务考验的不只是模型的图像生成能力,更是对动作识别、空间理解与语义映射的综合考验。
提示:Anime image 1 adopts the pose of image 2
DreamOmni2 在这一测试中依然表现不错,它能够准确捕捉草图中的姿态,将线条信息转化为自然的人物动作。
最后,我们同样对 DreamOmni2 与 GPT-4o、Nano Banana 的生成效果进行对比。输入两张图片,要求是「将图 2 的项链戴在图 1 中的猫的脖子上」。
DreamOmni2 生成的结果如下:
下图左为 GPT-4o 结果,右为 Nano Banana 结果:
三者比较下来,GPT-4o 的生成结果依然带有较强的 AI 痕迹;DreamOmni2 和 Nano Banana 各有其优势,比如 DreamOmni2 色彩氛围表现力更强,Nano Banana 画面呈现更柔和。
这样的表现直接验证了贾佳亚团队的实验结果:DreamOmni2 在基于指令的多模态编辑与生成任务中均实现了新的 SOTA。
基于指令的多模态编辑定量与定性结果。
基于指令的多模态生成的定量与定性结果。
数据、框架与训练三位一体,
打通多模态生成全链路
从前文多场景实测来看,DreamOmni2 在多模态指令编辑与生成任务中展现出了更强的适应性、可控性与可玩性。实现这样的跃升,意味着贾佳亚团队要在数据构建、框架设计与训练策略上做出一些不同于行业其他玩家的东西来。
事实上,贾佳亚团队确实做到了这一点,祭出了三阶段式数据构建范式、多参考图索引编码优化以及 VLM 与生成模型联合训练等在内的一整套技术创新方案。
由于多模态指令编辑与生成算是比较新的 AI 任务,其主要挑战就在于缺乏足够的训练数据。对于编辑,早期(如 Omniedit)的数据构建流程往往通过生成包含指令、源图像与目标图像的三元组来实现,而无法生成以参考图像为编辑条件的数据;对于生成,现有(如 UNO)的数据构建流程依赖分割检测模型来生成参考图像,难以合成涉及抽象属性或被遮挡物体的参考数据。
DreamOmni2 独创了三阶段式数据构建范式,力图突破以往工作的数据桎梏。
第一阶段采用特征混合方案,通过双分支结构同时生成源图像与目标图像。并且利用基础模型的 T2I(文本到图像)能力,创建包含具体物体与抽象属性的高质量数据对。与 UNO 采用的 diptych 数据生成方法相比,特征混合方案表现出了三大优势:不降图像分辨率、不会出现因分割线偏移而导致的内容混叠、数据质量与准确性更高。
第二阶段聚焦于构建基于指令的多模态编辑数据。首先利用 T2I 模型生成的图像和真实图像来创建目标图像;随后利用第一阶段训练得到的特征提取模型来模拟目标图像中的物体或属性,并基于指令生成参考图像;接着使用基于指令的编辑模型修改目标图像中提取的物体或属性,从而创建源图像;最终形成了从参考图像、源图像到目标图像的训练对。
到了第三阶段,则要构建基于指令的多模态生成数据。首先利用第二阶段中训练的特征提取模型,从源图像中提取物体,创建新的参考图像;随后将这些参考图像与第二阶段已有的参考图像结合起来,最终形成由多张参考图像、指令和目标图像组成的训练数据集。
这一范式打通了从具体物体到抽象概念、从编辑到生成的全流程数据构建链路,通过特征混合、真实数据与模型自生数据的结合,弥补了以往多模态训练中抽象概念稀缺以及缺乏参考图像条件的结构性缺陷,降低了数据获取成本。
如此一来,贾佳亚团队从数据层面保证了模型的语义理解与跨模态对齐能力,也为行业带来了一套更高效的数据闭环标准。
DreamOmni2 的框架设计要适应多参考图输入的需求。由于基础模型 FLUX Kontext 无法实现这一点,因此需要进行针对性修改。
在多模态指令任务中,为方便起见,通常会将参考图像标记为「image 1」、「image 2」等。但是,仅依靠位置编码无法准确区分不同参考图像的索引。
为了解决这个问题,贾佳亚团队选择将索引编码添加到位置通道。索引编码虽有助于区分参考图像,但位置编码仍然需要根据先前输入的参考图像的大小进行偏移。因此这个偏移又被添加到了位置编码中,使得复制粘贴现象和参考图像之间的像素混淆现象得到有效缓解。
最后是进一步的训练优化。当前编辑和生成模型的训练指令通常结构化良好,具有固定格式。然而,现实世界中的用户指令往往不规则或逻辑上不一致,这会造成一种鸿沟,影响到模型的理解并降低性能。
针对这一点,贾佳亚团队提出了 VLM 和生成模型联合训练的机制,让 VLM 理解复杂的用户指令,并将其输出为训练中使用的结构化格式,帮助编辑和生成模型更好地理解用户意图。
与此同时,贾佳亚团队使用 LoRA 方法分别训练了编辑与生成模块,使模型按照标准化指令格式执行多模态指令编辑与生成任务。当系统检测到参考图像输入时,LoRA 模块会自动激活,从而在统一模型中无缝融合编辑与生成功能。
更多技术细节请访问原论文。
论文地址:https://arxiv.org/pdf/2510.06679v1
作为一次底层架构的技术升级,DreamOmni2 以系统化的思路贯通了数据、框架与训练三个关键环节,构建起多模态生成的统一体系。
结语
去年 12 月,贾佳亚团队发布 DreamOmni,迈出了探索图像生成与编辑任务大一统的第一步。如今 DreamOmni2 的开源,则是这一方向的深化与延展。
最开始,基于指令的编辑还只能处理简单的添加、删除与替换任务,而现在已经能够理解复杂的语义指令,并利用参考图像实现风格迁移、结构重组、抽象属性编辑等高级任务。
基于指令的生成也不再局限于单一物体的场景构建,而能更灵活地处理多物体与抽象概念的协同组合,实现更高层次的语义协调与创意控制,拓宽了 AI 视觉创作的表现空间。
对于整个行业而言,DreamOmni2 的系统性创新,让模型的多模态理解、编辑与生成能力做到自然衔接与切换,为下一代 AI 视觉创作工具的智能进化提供了参考。
此外,DreamOmni2 是贾佳亚团队过去两年深耕多模态领域的一个缩影与延续。团队在图像、视频与语音等多个方向发力,仅在去年就陆续推出多模态视觉语言模型 Mini-Gemini、AI 图像与视频生成控制工具ControlNeXt 以及 DreamOmni 等多项代表性研究;在语音方向则推出了富有表现力、长时程的语音生成模型 MGM-Omni。
通过这些工作,贾佳亚团队已逐步构建起覆盖感知、理解与生成全链路的多模态技术栈。加之很多模型选择向社区开放,进一步增强了其自身多模态技术的影响力。
随着以 Nano Banana、DreamOmni2 以及 Sora 2 为代表的视觉生成模型持续引爆社区,AI 创作范式正在发生翻天覆地的变化,创作者可以进行更加深入的人模共创。连同 DreamOmni2 在内,贾佳亚团队的一系列开源工作将成为推动全球多模态创作生态演进的重要力量。