Command Palette
Search for a command to run...
Leena Alghamdi Muhammad Usman Hafeez Anwar Abdul Bais Saeed Anwar

摘要
伪装目标检测(Camouflaged Object Detection, COD)是一项新兴且极具挑战性的计算机视觉任务,旨在识别和分割那些因在颜色、纹理及尺寸上与其环境高度相似而完美融合的目标。而在低光照条件、部分遮挡、目标尺寸微小、背景纹理错综复杂以及多目标共存等因素的影响下,这一任务变得更加复杂。尽管目前已提出了许多先进的方法,但现有技术在复杂场景下,尤其是针对微小目标和多目标场景,仍难以实现伪装目标的精确检测,这表明该领域仍有改进空间。为此,我们提出了一种多尺度递归网络(Multi-Scale Recursive Network),该网络利用金字塔视觉Transformer(Pyramid Vision Transformer)骨干网络提取多尺度特征,并通过专门设计的“基于注意力的尺度整合单元”(Attention-Based Scale Integration Units)进行组合,从而实现特征的选择性融合。为了实现更精确的目标检测,我们的解码器引入了“多粒度融合单元”(Multi-Granularity Fusion Units),对特征进行递归式的细化与优化。此外,我们开发了一种新颖的递归反馈解码策略以增强对全局上下文的理解,进而协助模型克服该任务中的诸多挑战。通过结合多尺度学习与递归特征优化,本文提出的方法实现了显著的性能提升,能够成功检测微小及多个伪装目标。我们的模型在两个伪装目标检测基准数据集上取得了最先进(SOTA)的结果,并在另外两个数据集上排名第二。我们的代码、模型权重及实验结果已在以下链接开源:href{https://github.com/linaagh98/MSRNet}{https://github.com/linaagh98/MSRNet}。