“治愈”了百万人的抖音AI绘本特效,背后是豆包大模型
创始人
2024-10-13 13:52:51
0

国庆期间,抖音上一款名为“AI治愈绘本”的特效凭借温暖优美的画风和高还原度吸引了数百万用户投稿,采用了动态绘本的拟物玩法,“AI治愈绘本”特效首次使用了3D立体翻书的形式,巧妙地将首张用户图作为书皮呈现,玩法新颖有趣。基于该特效投稿的“成为绘本里的温暖主角”话题播放量超过11亿。

据了解,“AI治愈绘本”特效底层使用了字节跳动豆包大模型的图像生成能力,技术团队通过多项自研算法,保证了模型有更好的风格响应度、画面美观度,让风格化效果更富有表现力,并且更大程度还原了人物面部特征、服装款式、颜色、配饰等主体特征,在“美且像”的维度上取得了良好的效果。

为呈现更好的交互方式,技术团队还使用了自研的主体抹除、扩图能力,对风格化结果图进行后处理,使得多张结果图可以在端上进行切换。上述过程中应用到的IP保持技术RealCustom和AI扩图和AI消除技术ByteEdit,两项成果分别入选CVPR2024和ECCV2024。

RealCustom :生成效果又美又像本人的IP保持技术

RealCustom是一种个性化定制技术即IP保持,对于任意开放域物体或人物IP均可实现无需微调的实时定制化生成,在AI绘本中主要起到保持输入图片特征的作用。不同于以往风格化特效中用的图片特征保持方法, RealCustom不仅能够还原图片的细节特征,还具有对图片的抽象语义理解,从而可以根据文本输入自适应地做出变化,并生成更加和谐的效果。为了更好的还原主体外观,RealCustom使用了多个层次的图片信息融合,为了让视觉信息跟文本信息能更好的融合,RealCustom通过自适应模块学习了视觉条件与文本条件之间的对齐能力,并根据不同时刻的状态准确地推导出相应的视觉条件。从而能对用户多种多样的输入做出自适应的处理,在保证好看的风格化效果的同时,稳定保持图片特征。

(注:RealCustom论文已入选CVPR2024,了解详细内容见:https://corleone-huang.github.io/realcustom/,https://corleone-huang.github.io/RealCustom_plus_plus/)

ByteEdit:让填充背景更自然和谐的AI扩图和AI消除能力

特效中用到了AI扩图和AI消除的能力,其中AI消除是指消除图像中指定的某个物体或区域,并根据周围的背景来填充消除位置的内容;AI扩图则根据指定的扩展比例来延展原图像的内容。这两个任务本质上都是根据已知图像的内容去填充周围的区域,重点在于如何让填充的内容和原图没有违和感。

为了达到这个目的,首先,技术团队增大了训练数据量级,让模型「看到」更多泛化场景,此外,ByteEdit提出了一种创新的框架,利用反馈学习来增强生成性图像编辑任务。ByteEdit通过集成图像奖励模型来提升美学质量、图像与文本的一致性,并引入密集的像素级奖励模型以增强输出的一致性,让希望填充的区域和非填充区域更加的和谐。此外,提出了一种对抗性和渐进式反馈学习策略,以加快模型的推理速度。

除此之外,“AI治愈绘本”特效可以支持用户上传多张图,在做能力部署时,技术团队针对该场景单独做了一套多服务并行逻辑以及性能加速策略,最大程度保障了在流量高峰期时,能够在最短时间内将风格化结果图、后处理结果图等顺利返回到端上。端上获取多张结果图后,技术团队依托自研的书本3D运动和阴影跟随算法,对书内各个物体的运动曲线进行参数自动化调整,在模拟书本翻页以及内页跳出的过程中,阴影效果可以随书页自然移动,更大程度保留了书页翻动的立体感与自然感,边缘的阴影过渡相对流畅。

近期,抖音特效团队还在国庆期间上线了同样是温暖治愈系的“金秋绘本风特效”,特效投稿量已超百万,相关话题播放量超过1.8亿次。

豆包大模型是字节跳动自研的大语言模型,通过字节跳动旗下云服务平台火山引擎面向企业开放服务。目前豆包模型家族已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。(资讯)

上游新闻 马亮

相关内容

冲击IPO上市关口,智谱获...
智谱CEO张鹏 IPO上市辅导关口,国产AI大模型“六小虎”之一的...
2025-07-02 19:11:24
海纳AI面试官正式发布PC...
在人工智能技术飞速发展的当下,AI 面试正以其高效、精准的特性,成...
2025-07-02 16:41:06
原创 ...
多模态大模型正在从“看得见”走向“看得懂、想得通”。 智谱正式发布...
2025-07-02 15:40:54
智谱发布并开源视觉语言大模...
7月2日,智谱正式发布并开源了视觉语言大模型GLM-4.1V-Th...
2025-07-02 14:41:22
微软发布突破性医疗AI系统...
截至2025年7月2日 09:50,中证人工智能主题指数(9307...
2025-07-02 14:13:01
AI视频时代,谁在闻风而动
当内容产业开始进入AI模型化阶段,大家拼的不仅是流量,也是数据、算...
2025-07-02 14:12:28

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...