11일 전

먼저 찾고, 다음에 추적하라: 언어 기반 동영상 객체 세그멘테이션에서 식별과 전파의 분리

Cho, Suhwan, Lee, Seunghoon, Lee, Minhyeok, Lee, Jungho, Lee, Sangyoun

초록

참고 영상 객체 분할(Referring Video Object Segmentation)은 자연어 프롬프트를 이용하여 영상 내 타깃 객체를 분할하고 추적하는 작업을 의미한다. 기존의 방법들은 시각적 특징과 텍스트 특징을 매우 복잡하게 결합하여 다중 모달 정보를 함께 처리함으로써 프레임별 마스크를 생성한다. 그러나 이러한 접근 방식은 특히 유사한 객체가 다수 존재하는 장면에서 타깃 식별이 모호해지며, 프레임 간 마스크 전파의 일관성을 보장하지 못하는 문제가 있다. 이러한 한계를 해결하기 위해 우리는 타깃 식별과 마스크 전파를 분리하는 새로운 분리형 프레임워크인 FindTrack을 제안한다. FindTrack은 분할 신뢰도와 시각-텍스트 일치도를 균형 있게 고려하여 적응적으로 핵심 프레임(key frame)을 선택함으로써 타깃 객체에 대한 강력한 참조 기준을 설정한다. 이 참조 기준은 이후 전용 전파 모듈에 의해 전체 영상에 걸쳐 객체의 추적과 분할에 활용된다. 이러한 과정의 분리 덕분에 FindTrack은 타깃 연결의 모호성을 효과적으로 줄이고 분할의 일관성을 향상시킨다. 우리는 공개 벤치마크에서 FindTrack이 기존 방법들을 능가함을 실험을 통해 입증하였다.