11 天前

基于识别机制的可扩展视频对象分割

Zongxin Yang, Jiaxu Miao, Yunchao Wei, Wenguan Wang, Xiaohan Wang, Yi Yang
基于识别机制的可扩展视频对象分割
摘要

本文深入探讨了在半监督视频目标分割(Semi-Supervised Video Object Segmentation, VOS)任务中实现可扩展且高效多目标建模所面临的挑战。以往的VOS方法通常仅通过单一正样本对象解码特征,导致在多目标场景下必须分别匹配和分割每个目标,从而限制了多目标表示的学习能力。此外,早期方法多针对特定应用目标设计,缺乏灵活适应不同速度-精度权衡需求的能力。为解决上述问题,本文提出两种创新性方法:基于Transformer的多目标关联(Associating Objects with Transformers, AOT)与可扩展Transformer的多目标关联(Associating Objects with Scalable Transformers, AOST)。在实现高效多目标建模方面,AOT引入了ID(Identity)机制,为每个目标分配唯一标识,使网络能够在单次前向传播中同时建模所有目标之间的关联关系,从而实现高效的目标追踪与分割。为应对部署灵活性不足的问题,AOST进一步融合了可扩展的长短期Transformer结构,结合可扩展监督机制与逐层基于ID的注意力机制,首次实现了VOS任务中在线架构的可扩展性,并有效克服了传统ID嵌入表示能力的局限。鉴于目前尚无针对密集多目标标注的VOS基准,本文提出一个更具挑战性的“野外视频目标分割”(Video Object Segmentation in the Wild, VOSW)基准,用于验证所提方法的有效性。我们在VOSW以及五个广泛使用的VOS基准(包括YouTube-VOS 2018 & 2019 Val、DAVIS-2017 Val & Test、DAVIS-2016)上进行了大量实验,评估了多种AOT与AOST变体。实验结果表明,所提方法在全部六个基准上均显著超越现有最先进方法,展现出卓越的性能、效率与可扩展性。项目主页:https://github.com/yoxu515/aot-benchmark

基于识别机制的可扩展视频对象分割 | 最新论文 | HyperAI超神经