
본 논문은 도전적인 다중 객체 시나리오에서 반감독 비디오 객체 분할 문제를 해결하기 위해 더 나은 그리고 효율적인 임베딩 학습을 실현하는 방법을 조사합니다. 최신 방법들은 단일 양성 객체의 특징을 디코딩하도록 학습하므로, 다중 객체 시나리오에서는 각 대상을 별도로 매칭하고 분할해야 하며 이는 여러 번의 컴퓨팅 자원 소모를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 트랜스포머를 이용한 객체 연관(Associating Objects with Transformers, AOT) 접근법을 제안하여 여러 객체를 동일하게 매칭하고 디코딩할 수 있도록 합니다. 구체적으로, AOT는 여러 대상을 같은 고차원 임베딩 공간으로 연관시키는 식별 메커니즘을 사용합니다. 따라서 단일 객체 처리와 마찬가지로 다중 객체의 매칭과 분할 디코딩을 동시에 효율적으로 처리할 수 있습니다. 다중 객체 연관성을 충분히 모델링하기 위해, 계층적 매칭과 전파를 구성하기 위한 장단기 트랜스포머(Long Short-Term Transformer)가 설계되었습니다. 우리는 다양한 복잡도를 가진 AOT 변형 네트워크들을 다중 객체 및 단일 객체 벤치마크에서 광범위한 실험을 수행하여 검증하였습니다. 특히, 우리의 R50-AOT-L은 YouTube-VOS(84.1% J&F), DAVIS 2017(84.9%), DAVIS 2016(91.1%) 등 세 가지 인기 있는 벤치마크에서 모든 최신 경쟁자들을 능가하며, 동시에 3배 이상 빠른 다중 객체 실행 시간을 유지합니다. 또한, AOT-T는 위 벤치마크들에서 실시간 다중 객체 속도를 유지할 수 있습니다. AOT 기반으로, 우리는 제3회 대규모 VOS 챌린지에서 1위를 차지했습니다.