
摘要
以往的视频对象分割方法主要集中在外观和运动之间的单一解决方案上,这限制了这两个线索之间及内部特征协作的效率。在本研究中,我们提出了一种新颖且高效的全双工策略网络(FSNet),通过在融合和解码阶段利用跨模态特征时考虑更好的运动与外观之间的相互约束方案来解决这一问题。具体而言,我们引入了关系交叉注意力模块(RCAM)以实现嵌入子空间之间的双向消息传播。为了提高模型的鲁棒性和更新时空嵌入中的不一致特征,我们在RCAM之后采用了双向净化模块(BPM)。在五个流行的基准数据集上的大量实验表明,我们的FSNet对各种具有挑战性的场景(如运动模糊、遮挡)具有较强的鲁棒性,并在视频对象分割和视频显著对象检测任务中表现出优于现有最先进方法的性能。该项目已公开发布,地址为:https://dpfan.net/FSNet。