腾讯混元文生图开源模型上线三款ControlNet插件,让创作更自由
创始人
2024-08-15 15:42:17
0

8月15日,腾讯混元文生图开源大模型(开源项目名称为“HunyuanDiT”,以下简称为“混元DiT”)联合社区发布了最新的三款可控制插件ControlNet,包括tile(高清放大)、inpainting(图像修复与扩充)、lineart(线稿生图)等不同类型,与此前官方插件一同形成混元DiT的ControlNet矩阵,组合使用可以覆盖包括美术、创意、建筑、摄影、美妆、电商等80%案例和场景。

这意味着,全球的企业与个人开发者、创作者们,都可以基于丰富混元DiT模型的ControlNet生态更加精准地生成图片,创造更具个性化的专属模型,进行更大自由度的创作。

腾讯混元DiTControlNet矩阵,实现多样化场景创作

AI生图领域的可控制插件ControlNet是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。

Tile(高清放大)可以为画面扩充信息,用于增加细节辅助超清放大,将画面清晰度变成4K甚至8K,连毛发都清晰可见,非常适合对于图片有极致细节追求的场景使用。

使用tile模型将人物写真画面放大八倍

适当调整使用方法的情况下,tile插件也可以对画面进行其他操作,比如通过如衰减权重后把下面图中的真人写真变成一个可爱的动漫人物。

Inpainting(图像修复与扩充)插件的能力类似于部分图像处理软件的AI涂抹重绘、AI扩图,该能力可以将图片中被涂抹和斑驳褪色的部分,根据创作者的需要进行填充。通过该插件可以实现图片背景、人物主体改变、局部修改画面等需求,能处理高达70%面积涂抹重绘。

通过腾讯混元DiT Inpainting插件改变图片背景

通过腾讯混元DiT Inpainting插件实现多点重绘,将原来的深色猫咪改变为黄色猫咪,并保持四肢和脸部毛发的一致性

通过腾讯混元DiT Inpainting插件实现局部细节修改,将原来的睁眼的人物变成闭眼

通过腾讯混元DiT Inpainting插件实现扩图

Lineart(线稿生图)则可参考各种不同类型线条,创作真人、动漫和建筑图片,既可用户建筑行业效果图的生成,也可以给手稿上色作为创作参考。

Lineart插件可以接受由原有混元DiT插件canny提取的线稿,也能兼容预处理模型 anyline输出的线稿,根据线稿生成精致的场景。

在建筑设计场景下,用lineart生成建筑设计效果图后,还能搭配inpainting模型更换内容、调整材质,最后使用tile模型放大输出最终效果图。在动漫创作场景下,将原有动漫图片稍加反色处理输入给模型,就能通过提示词为角色上色。

使用腾讯混元DiT lineart插件生成建筑设计效果图

使用腾讯混元DiT lineart插件给动漫手稿上色

此前,腾讯混元DiT官方发布了能提取与应用图像的canny(边缘)、depth(深度)、pose(人体姿势)等条件的三个首发ControlNet模型,开发者可直接使用其进行推理。该三个ControlNet插件能实现通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人等能力。同时,混元DiT也开源了ControlNet的训练方案,开发者与创作者可以训练自定义的ControlNet模型。

腾讯混元DiT官方上线的三个ControlNet插件效果演示

本次腾讯混元DiT新增的三款可控制插件ControlNet由混元DiT联合社区模型制作者调参训练,选取了创作者最为常用的场景方向进行制作。

三款ControlNet模型的加入,将扩充混元DiT已有的ControlNet插件矩阵,并可互相组合搭配进行创作。随着腾讯混元DiT ControlNet生态的完善,并在ComfyUI等多种工具支持下,混元DiT模型的绘图质量、多样性和可靠性大大提高,将更能激发使用者的创意,产出更多优秀视觉作品。

众多开发者关注,成最受欢迎国产DiT开源模型

今年5月,腾讯混元文生图大模型宣布全面升级并对外开源,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解。

作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设开发者生态。

6月,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。

与此同时,模型易用性大幅提升,用户可以通过Hugging Face Diffusers快速调用混元DiT模型及其插件,或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。

7月4日,腾讯混元文生图大模型(混元DiT)升级至1.2版本并宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好;并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练LoRA模型。

目前,在众多开发者的支持下,混元DiT发布仅3个月,Github Star数已经超过3.1k,成为最受欢迎的国产DiT开源模型。

相关内容

聚焦AI+大模型、三维重建...
中新网北京5月31日电 (记者 孙自法)记者5月31日从中国图像图...
2026-06-01 00:57:14
国泰海通:维持海外AI算力...
国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出,O...
2026-06-01 00:54:38
AI图片 | 联村党委“一...
黔东南州雷山县达地水族乡推出联村党委“订单式”社会化服务机制,以党...
2026-06-01 00:52:51
AI独角兽MiniMax要...
IT之家 5 月 31 日消息,人工智能公司 MiniMax Gr...
2026-06-01 00:51:13
小米开源可控视频音效生成模...
IT之家 5 月 29 日消息,小米大模型应用团队今日发布 Con...
2026-06-01 00:41:13
鸿蒙生态设备超13亿台,开...
PChome 5月28日消息,2026开源鸿蒙开发者大会正式召开,...
2026-05-30 05:44:37

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...