8 个月前

摘要

本文研究了如何实现更好且更高效的嵌入学习，以应对在具有挑战性的多目标场景下的半监督视频对象分割问题。现有的最先进方法通过解码单个正样本对象的特征来学习，因此在多目标场景下需要分别匹配和分割每个目标，消耗大量的计算资源。为了解决这一问题，我们提出了一种基于 Transformer 的对象关联（AOT）方法，可以统一地匹配和解码多个对象。具体而言，AOT采用了一种识别机制，将多个目标关联到同一个高维嵌入空间中。因此，我们可以像处理单个对象一样高效地同时处理多个对象的匹配和分割解码。为了充分建模多目标关联，设计了一种长短期 Transformer （Long Short-Term Transformer），用于构建分层匹配和传播。我们在多目标和单目标基准上进行了广泛的实验，以检验不同复杂度的AOT变体网络。特别是，我们的R50-AOT-L在三个流行的基准测试中均优于所有现有最先进方法，即YouTube-VOS（84.1% J&F）、DAVIS 2017（84.9%）和DAVIS 2016（91.1%），同时保持超过3倍的多目标运行速度。此外，我们的AOT-T能够在上述基准测试中维持实时多目标处理速度。基于AOT方法，我们在第三届大规模VOS挑战赛中获得了第一名。

源 PDF