Stable Diffusion一作携原班人马创业，最强开源文生图模型易主！已获3200万美元融资_linux资讯

Stable Diffusion一作携原班人马创业，最强开源文生图模型易主！已获3200万美元融资

创始人

2024-08-02 16:13:50

0次

新智元报道

编辑：编辑部

【新智元导读】时隔4个月，SD一作再创业！开源文生图模型FLUX.1，性能秒杀Midjourney、DALL-E。黑马初创Black Forest Labs获3200万美元融资。

SD一作、Stabililty AI核心成员Robin Rombach下场创业了，一出手就是王炸。

离职4个月后，他于今日官宣：自己成立了Black Forest Labs。

更炸裂的是，公司的第一个产品FLUX.1系列模型，效果直接秒杀Midjourney、DALL-E和Stable Diffusion！

好家伙，Midjourney前天刚发布了最新版本Midjourney 6.1，FLUX.1立刻就来踢馆。

Black Forest Labs专注于图像和视频等媒体的创新，推进生成式深度学习模型的发展。

根据官网消息，文生图只是一个开始，后续还将发布视频生成模型，准备和Sora和Gen-3等产品过招。

AI大神Karpathy也转发帖子宣传助力，并大赞FLUX.1性能优秀。

FLUX.1模型生成效果如何？直接上一组新鲜出炉的图像感受一下。

SD一作带队

扒开Black Forest Labs主页，可以看到团队共有15位成员。

创始人正是老熟人Robin Rombach。

Stability AI曾收购了Robin的Latent Diffusion模型，并聘请他成为首席科学家。

在Google Scholar网站上，Robin Rombach参与论文《High-Resolution Image Synthesis With Latent Diffusion Models》已经收获了9000多次引用。

期间他领导了全球著名文生图开源项目Stable Diffusion系列，这也是全球下载最多、使用最广的开源大模型之一。

论文地址：https://arxiv.org/pdf/2112.10752

今年3月末，Stability AI因资金、运营等问题内部生变，联合创始人被罢免，而Robin也选择了离开。

4个月后，Robin终于官宣再创业。

Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD论文作者，也是Black Forest Labs创业团队的新成员。

除了Bjorn Ommer，可以说Robin将SD核心元老全都带走了。

《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》，正收Robin离职前发表的最后一篇论文。

论文地址：https://arxiv.org/abs/2403.12015

值得一提的是，在这篇论文中，Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也参与了其中。

除此以外，新团队曾经的创新成果包括创建VQGAN和潜在扩散（Latent Diffusion）、用于图像和视频生成的SD模型（SD XL 、SVD）以及用于超快速实时图像合成的对抗扩散蒸馏（Adversarial Diffusion Distillation）。

Black Forest Labs的核心信念是，让文生图模型开源，促进研究界和学术界的创新与合作，并且提高透明度。

目前，Black Forest Labs已完成3200万美元的种子轮融资。由Andreessen Horowitz领投，也获得了General Catalyst和MätchVC的后续投资。

开源文生图Flux.1，击败Midjourney、SD 3

初次开源的Flux.1系列模型，有哪些惊喜？

官博介绍，新模型在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。

尤其是FLUX.1[pro]，经过测试在一众文生图模型中拔得头筹。

为了在可访问性和模型能力之间取得平衡，FLUX.1有三种变体：FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]。

- FLUX.1[pro]：FLUX.1的性能最佳版，提供最先进的图像生成，具有一流的提示词遵循能力、视觉质量、图像细节和输出多样性。

- FLUX.1[dev]：FLUX.1[dev]是一个开放权重的蒸馏模型，适用于非商业应用。

直接从FLUX.1[pro]蒸馏而来，FLUX.1[dev]获得了类似的质量和提示词遵循能力，同时比同尺寸的标准模型更高效。

- FLUX.1[schnell]：最快模型，适合本地开发和个人使用，schnell在德语中就是快的意思。

FLUX.1[schnell]在Apache 2.0许可下公开可用。同时已经获得了ComfyUI的支持，可以直接使用。

所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构，并扩展到120 亿 (12B) 参数。

通过基于流匹配 (flow matching) 来改进先前的扩散模型，这是一种通用且概念简单的训练生成式模型的方法。

此外，通过引入旋转位置嵌入 (rotary positional embeddings) 和并行注意力层来提高模型性能和硬件效率。

Black Forest Labs表示，将在不久的将来发布更详细的技术报告。

性能PK

FLUX.1是迄今为止最大的开源文本到图像模型，拥有120亿参数，可以提供与Midjourney相媲美的视觉效果，并且可能击败当前可用的无论是开源还是闭源模型。

FLUX.1代表了图像合成领域的最新技术，模型和变体在各自的类别中都创造了新的标准。

FLUX.1[pro] 和 [dev]在视觉质量、提示响应度（即模型对输入提示的准确理解和执行能力）、尺寸/宽高比可变性、排版和输出多样性，都超越了流行的模型，如Midjourney v6.0、DALL·E 3 (HD) 和SD3-Ultra。

FLUX.1[schnell]是迄今为止最先进的少步骤模型 (few-step model)，不仅超越了同类竞争对手，还超越了强大的非压缩模型，如 Midjourney v6.0 和 DALL·E 3 (HD)。

模型经过专门微调，以保留预训练阶段的全部输出多样性。与当前最先进的模型相比，FLUX.1也丝毫不输，具体内容如下所示。

所有FLUX.1型号变体都支持各种宽高比和分辨率（0.1和2.0兆像素），如以下示例所示。

FLUX.1在基准测试中看起来很棒，但它的作品看起来视觉效果有多好呢？

接下来将FLUX.1与迄今为止最著名的开源图像生成器进行比较，包括SD3 Mediu、Auraflow和Midjourney。

提示1：手绘插图，一只巨大的蜘蛛在丛林中追逐一个女人，极其可怕，痛苦，黑暗和令人毛骨悚然的风景，恐怖，素描风格。

FLUX.1展示了对光影明暗关系的出色运用，蜘蛛描绘出了锋利的腿和可怕的脸，人和蜘蛛的大小对比关系也符合提示中传达恐怖氛围的要求。

Auraflow的青色调色给人一种怪异的感觉，但并没有完全满足「黑暗和令人毛骨悚然」的要求，蜘蛛的设计好像不那么可怕。

SD3 Medium的黑白风格给人一种强烈的素描质感。蜘蛛的设计和纹理描绘细致，但四肢存在一些形态缺陷。

提示2：一只狗站在电视上，屏幕上显示「解密」一词。左边是一个穿着西装的女人拿着一枚硬币，右边是一个机器人站在急救箱上。整体风景是超现实的。

FLUX.1是最符合提示词要求的模型。构图均衡，出人意料的画面主体和配色增强了超现实的风格。问题是女人多出来了一只手，但这个版本最准确地捕捉了提示的本质。

SD3 Medium理解了所有的元素，但也有一些变化——比如卡通风格和狗坐着而不是站着，在准确性方面介于FLUX.1和Auraflow之间。

Auraflow对提示做了一些改动。狗在电视上，但不是站着，而是坐着，女人的造型复古，机器人是蓝色的底座，而不是急救箱，电视机上的单词也是错误的。

提示3：一只弹钢琴的白猫，戴着墨镜和帽子，穿着紫色夏威夷风格，灰色工作室背景下的全身拍摄，商业视频截图。

Midjourney对提示的解释捕捉到了场景的异想天开的特点，灯光柔和，有效地强调了纹理和颜色。

不过，特写镜头偏离了提示中指定的「全身镜头」，背景也不是要求的灰色工作室设置。

FLUX.1通过演奏钢琴的白猫的全身镜头捕捉了提示的所有元素，使提示更加符合提示。

构图包含了猫的整个身体，确保所有指定的细节都呈现了出来，灯光和渲染执行得很好，突出了猫的姿势和整体场景。

然而，虽然图像非常详细和准确，但它可能缺乏Midjourney特写镜头的表现力。（众所周知，Midjourney更注重审美而不是准确性）。

参考资料：

https://x.com/bfl_ml/status/1819003686011449788

https://blackforestlabs.ai/announcing-black-forest-labs/

原班人马 Labs 创业模型融资 Forest Black 图像 Gen- Robin dev

上一篇：开源证券：国内卫星互联网突破在即重视产业链各环节投资机会

下一篇：深入解析 AI 搜索算法的基本原理及国内AI搜索介绍

Stable Diffusion一作携原班人马创业，最强开源文生图模型易主！已获3200万美元融资

相关内容

热门资讯