11일 전
SOC: 의미 기반 개체 클러스터를 활용한 언급 기반 비디오 개체 세그멘테이션
Zhuoyan Luo, Yicheng Xiao, Yong Liu, Shuyan Li, Yitong Wang, Yansong Tang, Xiu Li, Yujiu Yang

초록
이 논문은 영상 수준의 시각-언어 정렬을 강화함으로써 참조 영상 객체 분할(RVOS)을 연구한다. 최근의 접근 방식은 RVOS 문제를 시계열 예측 문제로 모델링하고, 각 프레임에 대해 별도로 다모달 상호작용 및 분할을 수행한다. 그러나 영상 콘텐츠에 대한 전반적인 시각이 부족하여 프레임 간 관계를 효과적으로 활용하거나 객체의 시계열 변화에 대한 텍스트 설명을 이해하는 데 어려움이 있다. 이러한 문제를 해결하기 위해 우리는 통합적인 시계열 모델링과 다모달 정렬을 위한 영상 콘텐츠와 텍스트 안내를 통합하는 세마틱 지원 객체 클러스터(SOC)를 제안한다. SOC는 프레임 수준의 객체 임베딩 그룹을 언어 토큰과 연결함으로써 모달 간 및 시간 단계 간의 공동 공간 학습을 촉진한다. 더불어, 영상 수준에서 잘 정렬된 공동 공간을 구축하는 데 도움을 주기 위해 다모달 대조적 감독을 제안한다. 우리는 주요 RVOS 벤치마크에서 광범위한 실험을 수행하였으며, 제안한 방법은 모든 벤치마크에서 최신 기술 대비 뚜렷한 성능 우위를 보였다. 또한, 시계열 일관성에 초점을 두었기 때문에, 본 방법은 시간적 변화를 포함한 텍스트 표현을 처리하는 데 있어 분할의 안정성과 적응성 향상이 가능하다. 코드는 공개될 예정이다.