3 个月前

基于高效Transformer的低层视觉图像预训练

Wenbo Li, Xin Lu, Shengju Qian, Jiangbo Lu, Xiangyu Zhang, Jiaya Jia
基于高效Transformer的低层视觉图像预训练
摘要

预训练在高层计算机视觉任务中已取得多项最先进成果,然而,针对预训练在图像处理系统中作用机制的研究却寥寥无几。本文针对基于Transformer的预训练策略进行专门设计,以提升多种低层视觉任务的性能。为全面诊断预训练的影响,我们构建了一整套系统化的评估工具,用以揭示其对模型内部表征的影响机制。实验结果表明,预训练在不同低层任务中发挥着截然不同的作用:例如,在超分辨率(Super-Resolution, SR)任务中,预训练显著增强了高层特征中的局部信息,从而带来显著的性能提升;而在去噪任务中,预训练对内部特征表示几乎无影响,导致性能增益有限。进一步地,我们对比了多种预训练方法,发现多相关任务联合预训练在性能与数据效率方面均优于其他方案。最后,我们将研究拓展至不同数据规模与模型规模的场景,并对基于Transformer与基于CNN的架构进行了系统比较。基于上述研究,我们成功构建了多项低层视觉任务的最先进模型。相关代码已开源,地址为:https://github.com/fenglinglwb/EDT。