다중모달리티에 기반한 참조: 비디오 객체 분할을 위한 통합 시간 변환기

최근 들어 언어 및 음성과 같은 다중 모달 신호를 활용한 영상 객체 세분화(Video Object Segmentation, VOS)에 대한 관심이 산업계와 학계에서 점차 증가하고 있다. 이 작업은 모달 간의 의미적 정렬 및 프레임 간 시각적 대응 관계를 탐색하는 데 있어 큰 도전 과제를 안고 있다. 그러나 기존의 방법들은 각 모달에 대해 별도의 네트워크 아키텍처를 사용하며, 참조 정보와의 프레임 간 시간적 상호작용을 간과하고 있다. 본 논문에서는 참조 기반 영상 객체 세분화를 위한 다중 모달 통합 시간 변환기(MUTR: Multi-modal Unified Temporal Transformer)를 제안한다. MUTR는 처음으로 통합된 프레임워크를 도입하여 DETR 스타일의 변환기를 사용하며, 텍스트 또는 음성 참조에 의해 지정된 영상 객체를 모두 세분화할 수 있다. 구체적으로, 영상과 다중 모달 신호 간의 시간적 관계를 극대화하기 위해 두 가지 전략을 도입한다. 첫째, 변환기 전의 저수준 시간적 집계 과정에서, 다중 모달 참조가 연속된 영상 프레임으로부터 다중 해상도 시각적 특징을 포착할 수 있도록 한다. 이를 통해 텍스트나 음성 신호에 시간적 지식을 효과적으로 부여하고, 모달 간 의미적 정렬을 강화한다. 둘째, 변환기 후의 고수준 시간적 상호작용 과정에서, 서로 다른 객체 임베딩 간의 프레임 간 특징 공유를 수행함으로써, 영상 전체에 걸쳐 객체별 대응 관계를 개선하고 추적 성능을 향상시킨다. 텍스트 참조를 사용하는 Ref-YouTube-VOS 및 음성 참조를 사용하는 AVSBench 데이터셋에서 MUTR은 최신 기법 대비 각각 J&F 지표에서 +4.2% 및 +8.7% 향상시키며, 통합된 다중 모달 VOS의 중요성을 입증한다. 코드는 https://github.com/OpenGVLab/MUTR 에 공개되어 있다.