[ECCV2022]Language-Driven Artistic Style Transfer
创始人
2024-03-03 07:50:14
0

标题:Language-Driven Artistic Style Transfer

链接:https://sites.cs.ucsb.edu/~william/papers/LDAST.pdf

如标题所示,本文做的是基于文本引导的风格迁移。整体的思路还是用的AST(arbitrary style transfer)那一套自编码器结构。AST的思路就是通过将原图和目标图都经过一个encoder,得到原图的风格和语义特征以及目标图的风格和语义特征而这篇文章唯一的不同就是目标图自带一套文本描述,因此可以抽取文本的特征,然后将之视作风格特征与原图语义融合,最后通过解码器生成符合文本语义的结果即可。而这里的目标图像则是用作了监督信号。

模型结构

模型结构图画的比较复杂,但其实几乎全是同一组encoder和decoder在起作用,所以本质上很简单。唯一要注意的是输入的部分,比如左边的LVA模块,输入的是两张图和一段文字,这段文字是用来描述最底下图像的,也就是配套的一组数据。而右边的CR模块有四张图(c1,c2,s1,s2)和两段文字(x1,x2),s1和x1是配套的,s2和x2是配套的。理解了这里就很简单了。

语言视觉艺术家(LVA)

这个模块位于结构图的左上角,也是最终做测试时候使用的模块。包含了一个文本编码器,一个图像编码器和一个图像解码器。文本编码器就是输入文本输出一个文本特征。图像编码器就是输入图像,输出一个风格特征和一个语义特征。将图像输出的风格特征和语义特征输入解码器就获得了图像的重建结果。而将图像的语义特征和文本特征输入解码器就获得了符合目标文本的风格迁移结果。而为了让解码器能达到这样的效果,自然要设计一系列的训练方案,也就是接下来要说的其他部分。

结构重建

就是把图像编码器和图像解码器当做一组自编码器来训练,做重建损失。

分块风格判别器

这里用了GAN中的判别器来为风格做监督训练。作者将目标图像做随机划分,然后输入判别器作为正样本,将经过LVA输出的风格迁移的结果的随机划分块作为负样本,以此来训练判别器。这样目的自然就是让LVA输出的风格迁移结果贴近目标图像的风格。训练方式和GAN一样。

对比推理

这里虽然有对比两个字,但是并不是对比学习。作者这里的期望就是在相同的图像上加不同的风格时,出来的结果应当有相同的语义特征(Lc-c)。

而当在不同的图像上加相同的风格时,出来的结果应当有相同的风格特征(Lc-s)。

除此以外,作者还希望在将同一张图迁移成不同风格时,相似的风格迁移成相似的结果。比如风格1中有"明亮高耸的山"的描述,而风格2中有“山矗立在湖边”,那这两个风格就是相似的,那他们的结果就需要是比较类似的。因此作者对风格图计算了相似度,并加权在对比loss上(Lr-s)

相关内容

热门资讯

AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWR报告解读 WORKLOAD REPOSITORY PDB report (PDB snapshots) AW...
AWS管理控制台菜单和权限 要在AWS管理控制台中创建菜单和权限,您可以使用AWS Identity and Access Ma...
​ToDesk 远程工具安装及... 目录 前言 ToDesk 优势 ToDesk 下载安装 ToDesk 功能展示 文件传输 设备链接 ...
群晖外网访问终极解决方法:IP... 写在前面的话 受够了群晖的quickconnet的小水管了,急需一个新的解决方法&#x...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
Azure构建流程(Power... 这可能是由于配置错误导致的问题。请检查构建流程任务中的“发布构建制品”步骤,确保正确配置了“Arti...