新智元报道
编辑:编辑部
【新智元导读】时隔4个月,SD一作再创业!开源文生图模型FLUX.1,性能秒杀Midjourney、DALL-E。黑马初创Black Forest Labs获3200万美元融资。
SD一作、Stabililty AI核心成员Robin Rombach下场创业了,一出手就是王炸。
离职4个月后,他于今日官宣:自己成立了Black Forest Labs。
更炸裂的是,公司的第一个产品FLUX.1系列模型,效果直接秒杀Midjourney、DALL-E和Stable Diffusion!
好家伙,Midjourney前天刚发布了最新版本Midjourney 6.1,FLUX.1立刻就来踢馆。
Black Forest Labs专注于图像和视频等媒体的创新,推进生成式深度学习模型的发展。
根据官网消息,文生图只是一个开始,后续还将发布视频生成模型,准备和Sora和Gen-3等产品过招。
AI大神Karpathy也转发帖子宣传助力,并大赞FLUX.1性能优秀。
FLUX.1模型生成效果如何?直接上一组新鲜出炉的图像感受一下。
SD一作带队
扒开Black Forest Labs主页,可以看到团队共有15位成员。
创始人正是老熟人Robin Rombach。
Stability AI曾收购了Robin的Latent Diffusion模型,并聘请他成为首席科学家。
在Google Scholar网站上,Robin Rombach参与论文《High-Resolution Image Synthesis With Latent Diffusion Models》已经收获了9000多次引用。
期间他领导了全球著名文生图开源项目Stable Diffusion系列,这也是全球下载最多、使用最广的开源大模型之一。
论文地址:https://arxiv.org/pdf/2112.10752
今年3月末,Stability AI因资金、运营等问题内部生变,联合创始人被罢免,而Robin也选择了离开。
4个月后,Robin终于官宣再创业。
Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD论文作者,也是Black Forest Labs创业团队的新成员。
除了Bjorn Ommer,可以说Robin将SD核心元老全都带走了。
《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收Robin离职前发表的最后一篇论文。
论文地址:https://arxiv.org/abs/2403.12015
值得一提的是,在这篇论文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也参与了其中。
除此以外,新团队曾经的创新成果包括创建VQGAN和潜在扩散(Latent Diffusion)、用于图像和视频生成的SD模型(SD XL 、SVD)以及用于超快速实时图像合成的对抗扩散蒸馏(Adversarial Diffusion Distillation)。
Black Forest Labs的核心信念是,让文生图模型开源,促进研究界和学术界的创新与合作,并且提高透明度。
目前,Black Forest Labs已完成3200万美元的种子轮融资。由Andreessen Horowitz领投,也获得了General Catalyst和MätchVC的后续投资。
开源文生图Flux.1,击败Midjourney、SD 3
初次开源的Flux.1系列模型,有哪些惊喜?
官博介绍,新模型在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。
尤其是FLUX.1[pro],经过测试在一众文生图模型中拔得头筹。
为了在可访问性和模型能力之间取得平衡,FLUX.1有三种变体:FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]。
- FLUX.1[pro]:FLUX.1的性能最佳版,提供最先进的图像生成,具有一流的提示词遵循能力、视觉质量、图像细节和输出多样性。
- FLUX.1[dev]:FLUX.1[dev]是一个开放权重的蒸馏模型,适用于非商业应用。
直接从FLUX.1[pro]蒸馏而来,FLUX.1[dev]获得了类似的质量和提示词遵循能力,同时比同尺寸的标准模型更高效。
- FLUX.1[schnell]:最快模型,适合本地开发和个人使用,schnell在德语中就是快的意思。
FLUX.1[schnell]在Apache 2.0许可下公开可用。同时已经获得了ComfyUI的支持,可以直接使用。
所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到120 亿 (12B) 参数。
通过基于流匹配 (flow matching) 来改进先前的扩散模型,这是一种通用且概念简单的训练生成式模型的方法。
此外,通过引入旋转位置嵌入 (rotary positional embeddings) 和并行注意力层来提高模型性能和硬件效率。
Black Forest Labs表示,将在不久的将来发布更详细的技术报告。
性能PK
FLUX.1是迄今为止最大的开源文本到图像模型,拥有120亿参数,可以提供与Midjourney相媲美的视觉效果,并且可能击败当前可用的无论是开源还是闭源模型。
FLUX.1代表了图像合成领域的最新技术,模型和变体在各自的类别中都创造了新的标准。
FLUX.1[pro] 和 [dev]在视觉质量、提示响应度(即模型对输入提示的准确理解和执行能力)、尺寸/宽高比可变性、排版和输出多样性,都超越了流行的模型,如Midjourney v6.0、DALL·E 3 (HD) 和SD3-Ultra。
FLUX.1[schnell]是迄今为止最先进的少步骤模型 (few-step model),不仅超越了同类竞争对手,还超越了强大的非压缩模型,如 Midjourney v6.0 和 DALL·E 3 (HD)。
模型经过专门微调,以保留预训练阶段的全部输出多样性。与当前最先进的模型相比,FLUX.1也丝毫不输,具体内容如下所示。
所有FLUX.1型号变体都支持各种宽高比和分辨率(0.1和2.0兆像素),如以下示例所示。
FLUX.1在基准测试中看起来很棒,但它的作品看起来视觉效果有多好呢?
接下来将FLUX.1与迄今为止最著名的开源图像生成器进行比较,包括SD3 Mediu、Auraflow和Midjourney。
提示1:手绘插图,一只巨大的蜘蛛在丛林中追逐一个女人,极其可怕,痛苦,黑暗和令人毛骨悚然的风景,恐怖,素描风格。
FLUX.1展示了对光影明暗关系的出色运用,蜘蛛描绘出了锋利的腿和可怕的脸,人和蜘蛛的大小对比关系也符合提示中传达恐怖氛围的要求。
Auraflow的青色调色给人一种怪异的感觉,但并没有完全满足「黑暗和令人毛骨悚然」的要求,蜘蛛的设计好像不那么可怕。
SD3 Medium的黑白风格给人一种强烈的素描质感。蜘蛛的设计和纹理描绘细致,但四肢存在一些形态缺陷。
提示2:一只狗站在电视上,屏幕上显示「解密」一词。左边是一个穿着西装的女人拿着一枚硬币,右边是一个机器人站在急救箱上。整体风景是超现实的。
FLUX.1是最符合提示词要求的模型。构图均衡,出人意料的画面主体和配色增强了超现实的风格。问题是女人多出来了一只手,但这个版本最准确地捕捉了提示的本质。
SD3 Medium理解了所有的元素,但也有一些变化——比如卡通风格和狗坐着而不是站着,在准确性方面介于FLUX.1和Auraflow之间。
Auraflow对提示做了一些改动。狗在电视上,但不是站着,而是坐着,女人的造型复古,机器人是蓝色的底座,而不是急救箱,电视机上的单词也是错误的。
提示3:一只弹钢琴的白猫,戴着墨镜和帽子,穿着紫色夏威夷风格,灰色工作室背景下的全身拍摄,商业视频截图。
Midjourney对提示的解释捕捉到了场景的异想天开的特点,灯光柔和,有效地强调了纹理和颜色。
不过,特写镜头偏离了提示中指定的「全身镜头」,背景也不是要求的灰色工作室设置。
FLUX.1通过演奏钢琴的白猫的全身镜头捕捉了提示的所有元素,使提示更加符合提示。
构图包含了猫的整个身体,确保所有指定的细节都呈现了出来,灯光和渲染执行得很好,突出了猫的姿势和整体场景。
然而,虽然图像非常详细和准确,但它可能缺乏Midjourney特写镜头的表现力。(众所周知,Midjourney更注重审美而不是准确性)。
参考资料:
https://x.com/bfl_ml/status/1819003686011449788
https://blackforestlabs.ai/announcing-black-forest-labs/