2 个月前
在自监督变换器中用于弱监督目标定位的判别性提案采样
Shakeeb Murtaza; Soufiane Belharbi; Marco Pedersoli; Aydin Sarraf; Eric Granger

摘要
无人机在越来越多的视觉识别应用中得到使用。最近,在通信塔检查领域出现了一种基于无人机的资产监控方法,该方法通过在连续的航拍图像中定位感兴趣对象来引导无人机的自主飞行。本文提出了一种仅使用图像类别标签训练深度弱监督目标定位(WSOL)模型的方法,以高置信度定位目标。为了训练我们的定位器,我们从自监督视觉变换器(SSTs)中高效地提取伪标签。然而,由于SSTs将场景分解为包含各种目标部分的多个地图,并且不依赖任何显式的监督信号,因此它们无法区分感兴趣的特定目标与其他目标,这是WSOL所必需的。为了解决这一问题,我们提出利用不同变换器头生成的多个地图来获取用于训练深度WSOL模型的伪标签。具体而言,引入了一种新的判别性提议采样(DiPS)方法,该方法依赖于卷积神经网络(CNN)分类器来识别判别区域。然后,从前景和背景像素中采样这些区域中的像素,以训练一个WSOL模型,生成能够准确定位属于特定类别的目标的激活图。在具有挑战性的TelDrone数据集上的实证结果表明,我们提出的方法在生成的地图上的一系列阈值范围内均优于现有最先进方法。我们还在CUB数据集上进行了计算实验,结果显示我们的方法可以适应其他任务。