다중모달 트랜스포머를 활용한 엔드투엔드 참조 비디오 객체 세그멘테이션

참조 영상 객체 세분화 작업(RVOS)은 주어진 영상의 프레임들에서 텍스트로 참조된 객체 인스턴스를 세분화하는 것을 목표로 한다. 이 다중모달 작업은 텍스트 추론, 영상 이해, 인스턴스 세분화 및 추적을 복합적으로 포함하고 있어 복잡한 성격을 지니고 있기 때문에, 기존의 접근 방식들은 이를 해결하기 위해 복잡한 파이프라인에 의존하는 경우가 많다. 본 논문에서는 RVOS에 대한 간단한 트랜스포머 기반 접근 방식을 제안한다. 제안하는 프레임워크인 다중모달 추적 트랜스포머(Multimodal Tracking Transformer, MTTR)는 RVOS 작업을 시퀀스 예측 문제로 모델링한다. 최근 컴퓨터 비전 및 자연어 처리 분야의 발전에 따라, MTTR는 영상과 텍스트를 단일 다중모달 트랜스포머 모델을 통해 효과적이고 우아하게 처리할 수 있다는 인식에 기반하고 있다. MTTR는 엔드투엔드 학습이 가능하며, 텍스트 관련 유도 편향(Inductive bias) 구성 요소가 없으며, 추가적인 마스크 정제(post-processing) 단계도 필요하지 않다. 따라서 기존 방법들에 비해 RVOS 파이프라인을 크게 단순화한다. 표준 벤치마크에서의 평가 결과, MTTR는 다양한 지표에서 기존 최고 성능을 크게 상회함을 확인하였다. 특히 A2D-Sentences 및 JHMDB-Sentences 데이터셋에서 각각 +5.7, +5.0 mAP의 놀라운 성능 향상을 보였으며, 초당 76프레임의 속도로 처리할 수 있다. 더불어, 연구자들의 주목을 받지 못한 더 도전적인 RVOS 데이터셋인 Refer-YouTube-VOS의 공개 검증 세트에서도 우수한 성능을 기록하였다. 실험 재현을 위한 코드는 https://github.com/mttr2021/MTTR 에서 공개되어 있다.