
초록
참조 비디오 객체 분할은 주어진 텍스트 설명에 해당하는 비디오 내의 객체를 분할하는 것을 목표로 합니다. 기존의 트랜스포머 기반 시계열 모델링 접근 방식은 쿼리 일관성 부족과 문맥 고려의 제한성이라는 문제에 직면해 있습니다. 쿼리 일관성 부족은 비디오 중간에 다른 객체들의 불안정한 마스크를 생성합니다. 문맥 고려의 제한성은 주어진 텍스트와 인스턴스 간의 관계를 충분히 고려하지 못하여 잘못된 객체를 분할하게 만듭니다. 이러한 문제들을 해결하기 위해, 우리는 쿼리를 정렬하고 일관성을 달성하기 위한 정렬기(Aligner)와 다중 문맥을 고려하여 텍스트 관련 쿼리를 예측하는 다중 문맥 강화기(Multi-Context Enhancer, MCE)로 구성된 다중 문맥 시계열 일관성 모듈(Multi-context Temporal Consistency Module, MTCM)을 제안합니다. 우리는 MTCM을 네 가지 다른 모델에 적용하여 모든 모델에서 성능 향상을 이끌었으며, 특히 MeViS 데이터셋에서 47.6 J&F 점수를 달성했습니다. 코드는 https://github.com/Choi58/MTCM에서 확인 가능합니다.