
언어 표현을 통해 영상 객체를 분할하는 작업(Referring Video Object Segmentation, R-VOS)은 언어 표현에 의해 지시된 대상 객체를 영상의 모든 프레임에서 분할하는 새로운 다중 모달 작업이다. 본 연구에서는 Transformer 기반의 간단하고 통합적인 프레임워크인 ReferFormer을 제안한다. 이 방법은 언어를 쿼리로 간주하고, 영상 프레임 내에서 가장 관련성이 높은 영역에 직접 주목한다. 구체적으로, 언어에 조건부로 설정된 소규모 객체 쿼리를 Transformer의 입력으로 도입한다. 이를 통해 모든 쿼리는 지시된 객체를 탐색하는 데에만 집중하게 되며, 최종적으로는 동적 커널로 변환되어 객체 수준의 핵심 정보를 포착하게 된다. 이러한 동적 커널은 특징 맵에서 분할 마스크를 생성하는 데 있어 컨볼루션 필터와 같은 역할을 수행한다. 객체 추적은 프레임 간 해당 쿼리를 연결함으로써 자연스럽게 수행된다. 이 메커니즘은 전체 처리 파이프라인을 크게 단순화하며, 종전의 방법들과는 달리 종단 간(end-to-end) 프레임워크의 구조가 크게 차별화된다. Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences, JHMDB-Sentences 등 다양한 데이터셋에서 실시한 광범위한 실험 결과는 ReferFormer의 우수한 성능을 입증한다. Ref-Youtube-VOS에서 ResNet-50 기반 모델은 별도의 트릭 없이도 55.6J&F를 달성하며, 이는 기존 최고 성능보다 8.4점 높은 성과이다. 또한 강력한 Swin-Large 기반 모델을 사용할 경우, 기존 모든 방법 중 최고 수준인 64.2J&F를 기록한다. 더불어 A2D-Sentences와 JHMDB-Sentences에서 각각 55.0 mAP와 43.7 mAP의 놀라운 성과를 기록하며, 기존 방법들에 비해 상당한 성능 향상을 보였다. 관련 코드는 공개적으로 제공되며, GitHub에서 확인 가능하다: https://github.com/wjn922/ReferFormer.