[ECCV2022]Language-Driven Artistic Style Transfer
创始人
2024-03-03 07:50:14
0

标题:Language-Driven Artistic Style Transfer

链接:https://sites.cs.ucsb.edu/~william/papers/LDAST.pdf

如标题所示,本文做的是基于文本引导的风格迁移。整体的思路还是用的AST(arbitrary style transfer)那一套自编码器结构。AST的思路就是通过将原图和目标图都经过一个encoder,得到原图的风格和语义特征以及目标图的风格和语义特征而这篇文章唯一的不同就是目标图自带一套文本描述,因此可以抽取文本的特征,然后将之视作风格特征与原图语义融合,最后通过解码器生成符合文本语义的结果即可。而这里的目标图像则是用作了监督信号。

模型结构

模型结构图画的比较复杂,但其实几乎全是同一组encoder和decoder在起作用,所以本质上很简单。唯一要注意的是输入的部分,比如左边的LVA模块,输入的是两张图和一段文字,这段文字是用来描述最底下图像的,也就是配套的一组数据。而右边的CR模块有四张图(c1,c2,s1,s2)和两段文字(x1,x2),s1和x1是配套的,s2和x2是配套的。理解了这里就很简单了。

语言视觉艺术家(LVA)

这个模块位于结构图的左上角,也是最终做测试时候使用的模块。包含了一个文本编码器,一个图像编码器和一个图像解码器。文本编码器就是输入文本输出一个文本特征。图像编码器就是输入图像,输出一个风格特征和一个语义特征。将图像输出的风格特征和语义特征输入解码器就获得了图像的重建结果。而将图像的语义特征和文本特征输入解码器就获得了符合目标文本的风格迁移结果。而为了让解码器能达到这样的效果,自然要设计一系列的训练方案,也就是接下来要说的其他部分。

结构重建

就是把图像编码器和图像解码器当做一组自编码器来训练,做重建损失。

分块风格判别器

这里用了GAN中的判别器来为风格做监督训练。作者将目标图像做随机划分,然后输入判别器作为正样本,将经过LVA输出的风格迁移的结果的随机划分块作为负样本,以此来训练判别器。这样目的自然就是让LVA输出的风格迁移结果贴近目标图像的风格。训练方式和GAN一样。

对比推理

这里虽然有对比两个字,但是并不是对比学习。作者这里的期望就是在相同的图像上加不同的风格时,出来的结果应当有相同的语义特征(Lc-c)。

而当在不同的图像上加相同的风格时,出来的结果应当有相同的风格特征(Lc-s)。

除此以外,作者还希望在将同一张图迁移成不同风格时,相似的风格迁移成相似的结果。比如风格1中有"明亮高耸的山"的描述,而风格2中有“山矗立在湖边”,那这两个风格就是相似的,那他们的结果就需要是比较类似的。因此作者对风格图计算了相似度,并加权在对比loss上(Lr-s)

相关内容

热门资讯

保存时出现了1个错误,导致这篇... 当保存文章时出现错误时,可以通过以下步骤解决问题:查看错误信息:查看错误提示信息可以帮助我们了解具体...
汇川伺服电机位置控制模式参数配... 1. 基本控制参数设置 1)设置位置控制模式   2)绝对值位置线性模...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
本地主机上的图像未显示 问题描述:在本地主机上显示图像时,图像未能正常显示。解决方法:以下是一些可能的解决方法,具体取决于问...
不一致的条件格式 要解决不一致的条件格式问题,可以按照以下步骤进行:确定条件格式的规则:首先,需要明确条件格式的规则是...
表格列调整大小出现问题 问题描述:表格列调整大小出现问题,无法正常调整列宽。解决方法:检查表格的布局方式是否正确。确保表格使...
表格中数据未显示 当表格中的数据未显示时,可能是由于以下几个原因导致的:HTML代码问题:检查表格的HTML代码是否正...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...