12 天前

基于Transformer的图像和谐化

{Junyu Dong, Bing Zheng, Zhaorui Gu, Haiyong Zheng, Dongsheng Guo, Zonghui Guo}
基于Transformer的图像和谐化
摘要

图像和谐化旨在使合成图像看起来更加真实,是一项重要且具有挑战性的任务。该任务通过将一张图像的前景与另一张图像的背景进行拼接而生成合成图像,但由于成像条件(尤其是光照)的差异,合成图像往往呈现出不协调的外观。当前主流方法主要采用基于卷积神经网络(CNN)的编码器-解码器架构,以捕捉合成图像的上下文信息,尝试理解前景附近背景的视觉特征。在本工作中,我们提出利用Transformer模型解决图像和谐化问题,充分发挥其建模长距离上下文依赖关系的强大能力,在保持前景结构与语义不变的前提下,调整前景的光照,使其与背景光照相匹配。我们设计了两种和谐化Transformer框架——一种不带解耦机制,另一种引入解耦结构,并进行了全面的实验与消融研究,充分验证了Transformer在该任务中的有效性,同时深入探讨了Transformer在计算机视觉中的潜力。所提方法在图像和谐化以及图像修复/增强任务上均取得了当前最优性能,展现出显著优势。相关代码与模型已开源,地址为:https://github.com/zhenglab/HarmonyTransformer。

基于Transformer的图像和谐化 | 最新论文 | HyperAI超神经