11 天前
EVP:基于逆向多注意力特征精炼与正则化图文对齐的增强视觉感知
Mykola Lavreniuk, Shariq Farooq Bhat, Matthias Müller, Peter Wonka

摘要
本文提出了一种名为EVP(Enhanced Visual Perception,增强视觉感知)的网络架构。EVP在先前工作VPD的基础上进行改进,而VPD首次探索了将Stable Diffusion网络应用于计算机视觉任务的可行性。本文提出了两项关键改进:第一,我们设计了逆向多注意力特征精炼(Inverse Multi-Attentive Feature Refinement, IMAFR)模块,通过融合更高层级金字塔结构的空间信息,显著提升了特征学习能力;第二,我们提出了一种新型的图像-文本对齐模块,以优化Stable Diffusion骨干网络的特征提取性能。所提出的EVP架构具有广泛的适用性,我们在多个任务中验证了其有效性:在单图像深度估计任务中,采用基于分类的分箱(classification-based bins)专用解码器;在指代分割(referring segmentation)任务中,则使用现成的解码器。在多个主流数据集上的全面实验表明,EVP在单图像深度估计任务中取得了当前最优性能,无论是在室内场景(NYU Depth v2数据集,相比VPD提升11.8%的RMSE)还是室外场景(KITTI数据集)均表现出色;同时在指代分割任务(RefCOCO数据集)上也实现了2.53的IoU提升,优于ReLA方法。相关代码与预训练模型已公开发布于:https://github.com/Lavreniuk/EVP。