2 个月前

基于能量的潜在空间学习生成视觉变换器用于显著性预测

Jing Zhang; Jianwen Xie; Nick Barnes; Ping Li
基于能量的潜在空间学习生成视觉变换器用于显著性预测
摘要

视觉变换器网络在许多计算机视觉任务中表现出色。本文进一步提出了一种新颖的生成式视觉变换器,该变换器使用一种信息能量基础先验来检测显著对象。通过基于马尔可夫链蒙特卡洛的最大似然估计方法,视觉变换器网络和能量基础先验模型得到了联合训练,在此过程中,潜在变量的不可行后验分布和先验分布的采样由朗之万动力学完成。此外,借助生成式视觉变换器,我们可以从图像中轻松获得像素级不确定性图,这表明了模型在预测图像显著性方面的置信度。与现有的生成模型不同,这些模型通常将潜在变量的先验分布定义为简单的各向同性高斯分布,我们的模型采用了一种更具表现力的信息能量基础先验,能够更好地捕捉数据的潜在空间。我们将所提出的框架应用于RGB和RGB-D显著对象检测任务。广泛的实验结果表明,我们的框架不仅能够实现准确的显著性预测,还能生成与人类感知一致的有意义不确定性图。