ViLLa: 대형 언어 모델을 활용한 비디오 추론 세그멘테이션

최근 비디오 추론 세그멘테이션(VRS) 분야에서는 대형 언어 모델(LLMs)을 지각 모델과 통합하여 텍스트 지시를 통해 객체를 위치추정하고 추적하는 연구가 이루어졌으며, 간단한 시나리오에서는 거의 만족할 만한 결과를 달성하였습니다. 그러나, 장시간, 다수의 객체, 빠른 움직임, 그리고 중복된 가림 현상이 특징인 더 실제적인 장면에서 사용자 쿼리를 통해 객체를 구분하고 추론하는 데 어려움을 겪었습니다. 본 연구에서는 이러한 제한의 근본 원인을 분석하고, ViLLa: 대형 언어 모델을 활용한 비디오 추론 세그멘테이션을 제안합니다. 특히, ViLLa는 다음과 같은 여러 핵심 혁신을 통해 이러한 도전 과제들을 해결하였습니다: (1) 동적으로 사용자의 의도와 비디오 컨텍스트를 인코딩하여 정확한 추론을 수행하고 복잡한 쿼리에서 애매모호함을 해소하는 컨텍스트 합성기(context synthesizer), (2) 로컬 및 글로벌 시간 스케일에서 다중 객체 상호작용을 모델링하여 복잡한 시간적 시나리오에서 다중 객체 상호작용을 분리하는 계층적 시간 동기화기(hierarchical temporal synchronizer). 또한, 긴 비디오의 효율적인 처리를 위해 (3) 적응적으로 긴 비디오를 짧지만 의미적으로 밀도가 높은 세그먼트로 나누어 중복성을 줄이는 주요 세그먼트 샘플러(key segment sampler)를 포함합니다. 더욱이, 이 미개척 영역의 연구를 촉진하기 위해 우리는 다양한 복잡한 시나리오를 포함하는 VRS 벤치마크인 VideoReasonSeg를 구성하였습니다. 우리의 모델은 VideoReasonSeg, Ref-YouTube-VOS, Ref-DAVIS17, MeViS, ReVOS 등에서 인상적인 최신 결과를 보여주며, 양적 및 질적 실험 모두 우리의 방법이 멀티모달 LLMs의 비디오 추론 세그멘테이션 능력을 효과적으로 향상시키는 것을 입증하였습니다. 코드와 데이터셋은 https://github.com/rkzheng99/ViLLa 에서 제공될 예정입니다.