확장 가능한 비디오 객체 세그멘테이션을 위한 식별 메커니즘

본 논문은 반자율 비디오 객체 분할(VOS)에서 확장 가능하고 효과적인 다객체 모델링을 달성하기 위한 도전 과제를 탐구한다. 기존의 VOS 기법은 단일 양성 객체를 기반으로 특징을 디코딩하기 때문에, 다객체 시나리오에서 각 타겟을 별도로 매칭하고 분할해야 하는 한계로 인해 다객체 표현 학습이 제한된다. 또한 이전 기술들은 특정 응용 목적에 맞춰 설계되어, 다양한 속도-정확도 요구사항을 충족할 수 있는 유연성이 부족했다. 이러한 문제를 해결하기 위해, 우리는 두 가지 혁신적인 접근법인 트랜스포머 기반 객체 연관(AOT)과 확장 가능한 트랜스포머 기반 객체 연관(AOST)을 제안한다. 효과적인 다객체 모델링을 추구함에 있어, AOT는 각 객체에 고유한 정체성(ID)를 할당하는 ID(정체성) 메커니즘을 도입한다. 이 방법은 네트워크가 모든 객체 간의 관계를 동시에 모델링할 수 있게 하여, 단일 네트워크 통과 과정에서 객체 추적 및 분할을 가능하게 한다. 유연한 배포 문제를 해결하기 위해, AOST는 확장 가능한 장단기 메모리 트랜스포머를 통합하여 확장 가능한 감독 기반 및 계층별 ID 기반 어텐션을 포함한다. 이를 통해 VOS에서 처음으로 온라인 아키텍처 확장성을 실현하였으며, ID 임베딩의 표현 한계를 극복한다. 다객체 밀도 레이블링을 포함한 VOS에 대한 기준 평가 데이터셋이 존재하지 않는 상황을 고려하여, 우리는 제안한 방법들을 검증하기 위해 도전적인 ‘자연계 내 비디오 객체 분할(VOSW)’ 벤치마크를 제안한다. VOSW와 유명한 다섯 가지 VOS 벤치마크(YouTube-VOS 2018 & 2019 Val, DAVIS-2017 Val & Test, DAVIS-2016)를 대상으로 광범위한 실험을 수행하여 다양한 AOT 및 AOST 변형을 평가하였다. 제안한 방법은 모든 여섯 벤치마크에서 최신 기술 대비 뛰어난 성능을 보이며, 일관된 높은 효율성과 확장성을 입증하였다. 프로젝트 페이지: https://github.com/yoxu515/aot-benchmark