11일 전

순환적 관계 일치를 통한 강건한 언급 영상 객체 세그멘테이션

Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Bhiksha Raj, Yan Lu
순환적 관계 일치를 통한 강건한 언급 영상 객체 세그멘테이션
초록

언어 표현을 기반으로 비디오 내 객체를 세그먼트하는 참조 비디오 객체 세그멘테이션(R-VOS)은 도전적인 과제이다. 기존의 대부분의 R-VOS 방법은 중요한 가정을 내포하고 있는데, 즉 참조된 객체가 반드시 비디오에 등장해야 한다는 것이다. 이 가정을 우리는 '의미 일치(semantic consensus)'라고 부르며, 현실 세계의 시나리오에서는 이 가정이 종종 위반된다. 예를 들어, 사용자가 잘못된 비디오를 기반으로 언어 표현을 질의할 수 있기 때문이다. 본 연구에서는 의미 불일치를 처리할 수 있는 강건한(Robust) R-VOS 모델의 필요성을 강조한다. 이를 위해, 비어 있는 비디오-텍스트 쌍도 수용할 수 있는 확장된 과제인 '강건한 R-VOS(Robust R-VOS)'를 제안한다. 본 문제를 해결하기 위해 주된 R-VOS 과제와 그 이중 문제인 텍스트 재구성(text reconstruction)을 함께 모델링한다. 또한, 구조적 텍스트-텍스트 사이클 제약 조건(structural text-to-text cycle constraint)을 도입하여 비디오-텍스트 쌍 간의 의미 일치 여부를 구분하고, 긍정 쌍에 대해 이를 강제함으로써 긍정 및 부정 쌍 모두에서 다모달 정렬(multi-modal alignment)을 달성한다. 제안하는 구조적 제약은 언어 다양성에 의해 발생하는 도전을 효과적으로 해결하며, 이전 방법들이 의존했던 점 기반 제약(point-wise constraint)의 한계를 극복한다. 모델의 강건성을 측정하기 위해 새로운 평가 데이터셋인 R²-Youtube-VOS가 구축되었다. 제안한 모델은 R-VOS 벤치마크인 Ref-DAVIS17과 Ref-Youtube-VOS에서 최신 기술 수준의 성능을 달성하였으며, 본 연구에서 제안한 R²-Youtube-VOS 데이터셋에서도 뛰어난 성능을 보였다.

순환적 관계 일치를 통한 강건한 언급 영상 객체 세그멘테이션 | 최신 연구 논문 | HyperAI초신경