17 天前
基于Swin Transformer的鸟类小目标检测
{Ichiro Ide, Takahiro Komamizu, Takatsugu Hirayama, Yasutomo Kawanishi, TingWei Liu, Marc A. Kastner, Da Huo}
摘要
目标检测是指在图像中识别并定位物体的任务。在该任务中,小目标的检测尤为困难。除了尺寸较小之外,小目标还常伴随模糊、遮挡等问题,进一步增加了检测难度。当前的小目标检测方法主要针对小且密集的场景,例如人群中的行人或遥感图像中的远距离目标。然而,当目标既小又稀疏时,可用于训练的样本数量极为有限,导致模型难以学习到有效的特征表示。本文提出了一种专门用于检测特定类别小目标——鸟类——的方法。我们重点改进了网络结构中“颈部”(neck)部分的特征学习能力,即骨干网络(backbone)与预测头(prediction head)之间的子网络。通过采用分层设计,提升了特征表达的有效性。具体而言,我们引入Swin Transformer对图像特征进行上采样,并调整其移位窗口(shifted window)的大小,以更好地适应小目标的特性。实验结果表明,基于Swin Transformer构建的颈部结构与CenterNet相结合,在调整窗口尺寸后能够显著提升检测性能。进一步分析发现,较小的窗口尺寸(默认为2)在小目标检测任务中更有利于提升平均精度(mAP)。