GroPrompt: 효율적인 지상 프롬프팅 및 적응을 위한 참조 비디오 객체 분할

참조 비디오 객체 분할(Referencing Video Object Segmentation, RVOS)은 쿼리 문장이 지칭하는 객체를 전체 비디오에서 분할하는 것을 목표로 합니다. 기존의 대부분 방법은 밀집된 마스크 주석을 사용한 엔드투엔드 학습을 필요로 하며, 이는 계산량이 많고 확장성이 떨어질 수 있습니다. 본 연구에서는 제안된 Grounded Prompting(GroPrompt) 프레임워크를 통해 약한 감독 아래에서 RVOS 문제를 해결하기 위해 기초 분할 모델을 효율적으로 적응시키는 것을 목표로 합니다. 구체적으로, 우리는 위치 프롬프트와 참조 문장 간의 연관성을 강화하기 위해 Text-Aware Prompt Contrastive Learning(TAP-CL)을 제안합니다. 이는 프레임 단위와 비디오 단위에서 각각 Text-Contrastive Prompt Learning(TextCon)과 Modality-Contrative Prompt Learning(ModalCon)을 포함하며, 오직 바운딩 박스 감독만으로도 가능합니다. 제안된 TAP-CL 덕분에 GroPrompt 프레임워크는 비디오에서 참조 객체의 위치와 움직임을 설명하는 시간적 일관성과 텍스트 인식 능력을 갖춘 위치 프롬프트를 생성할 수 있습니다. 표준 RVOS 벤치마크(Ref-YouTube-VOS, Ref-DAVIS17, A2D-Sentences, JHMDB-Sentences)에서의 실험 결과는 오직 바운딩 박스 약한 감독만으로도 우리의 제안된 GroPrompt 프레임워크가 경쟁력 있는 성능을 보인다는 것을 입증합니다.