순환적 관계 일치를 통한 강건한 언급 영상 객체 세그멘테이션

언어 표현을 기반으로 비디오 내 객체를 세그먼트하는 참조 비디오 객체 세그멘테이션(R-VOS)은 도전적인 과제이다. 기존의 대부분의 R-VOS 방법은 중요한 가정을 내포하고 있는데, 즉 참조된 객체가 반드시 비디오에 등장해야 한다는 것이다. 이 가정을 우리는 '의미 일치(semantic consensus)'라고 부르며, 현실 세계의 시나리오에서는 이 가정이 종종 위반된다. 예를 들어, 사용자가 잘못된 비디오를 기반으로 언어 표현을 질의할 수 있기 때문이다. 본 연구에서는 의미 불일치를 처리할 수 있는 강건한(Robust) R-VOS 모델의 필요성을 강조한다. 이를 위해, 비어 있는 비디오-텍스트 쌍도 수용할 수 있는 확장된 과제인 '강건한 R-VOS(Robust R-VOS)'를 제안한다. 본 문제를 해결하기 위해 주된 R-VOS 과제와 그 이중 문제인 텍스트 재구성(text reconstruction)을 함께 모델링한다. 또한, 구조적 텍스트-텍스트 사이클 제약 조건(structural text-to-text cycle constraint)을 도입하여 비디오-텍스트 쌍 간의 의미 일치 여부를 구분하고, 긍정 쌍에 대해 이를 강제함으로써 긍정 및 부정 쌍 모두에서 다모달 정렬(multi-modal alignment)을 달성한다. 제안하는 구조적 제약은 언어 다양성에 의해 발생하는 도전을 효과적으로 해결하며, 이전 방법들이 의존했던 점 기반 제약(point-wise constraint)의 한계를 극복한다. 모델의 강건성을 측정하기 위해 새로운 평가 데이터셋인 R²-Youtube-VOS가 구축되었다. 제안한 모델은 R-VOS 벤치마크인 Ref-DAVIS17과 Ref-Youtube-VOS에서 최신 기술 수준의 성능을 달성하였으며, 본 연구에서 제안한 R²-Youtube-VOS 데이터셋에서도 뛰어난 성능을 보였다.