
本論文では、挑戦的な複数物体シナリオにおける半教師付きビデオオブジェクトセグメンテーションの問題を解決するために、より優れた効率的な埋め込み学習の実現方法について調査しています。最先端の手法は、単一の正例物体に対して特徴をデコードするため、複数物体シナリオ下では各ターゲットを個別にマッチングおよびセグメンテーションする必要があり、計算リソースが多次元に消費されます。この問題を解決するために、我々はTransformersを使用した物体関連付け(Associating Objects with Transformers: AOT)アプローチを提案します。これにより、複数の物体を一様にマッチングし、セグメンテーションをデコードすることが可能になります。具体的には、AOTは識別メカニズムを使用して、複数のターゲットを同じ高次元埋め込み空間に関連付けることで、単一の物体と同様に複数の物体のマッチングとセグメンテーションデコードを同時に処理できます。十分な多物体関連付けモデル化のために、階層的なマッチングと伝播構築を行うLong Short-Term Transformerが設計されています。我々は異なる複雑さを持つAOT変種ネットワークについて、多物体および単一物体ベンチマークで広範な実験を行いました。特に、R50-AOT-LはYouTube-VOS(84.1% J&F)、DAVIS 2017(84.9%)、DAVIS 2016(91.1%)という3つの人気ベンチマークで全ての最先端競合他社を上回りながら、3倍以上の高速な多物体実行時間を維持しています。一方で、AOT-Tはこれらのベンチマーク上でリアルタイムでの多物体処理速度を保つことができます。AOTに基づいて、我々は第3回大規模VOSチャレンジで1位となりました。