2달 전
VISA: 대형 언어 모델을 통한 비디오 객체 분할의 추론
Cilin Yan; Haochen Wang; Shilin Yan; Xiaolong Jiang; Yao Hu; Guoliang Kang; Weidi Xie; Efstratios Gavves

초록
기존 비디오 객체 분할(VOS)은 카테고리, 마스크 또는 짧은 문구와 같은 명시적인 사용자 지침에 의존하여, 세계 지식을 활용한 복잡한 비디오 분할 작업을 수행하는 능력이 제한됩니다. 본 논문에서는 새로운 작업인 추론 비디오 객체 분할(ReasonVOS)을 소개합니다. 이 작업은 세계 지식과 비디오 맥락을 기반으로 하는 복잡한 추론 능력을 필요로 하는 암시적인 텍스트 쿼리에 응답하여 분할 마스크 시퀀스를 생성하는 것을 목표로 하며, 이는 구조화된 환경 이해와 객체 중심의 상호작용에 중요한 역할을 하며, 체화된 AI 개발의 핵심입니다. ReasonVOS를 해결하기 위해, 우리는 VISA (비디오 기반 대규모 언어 지시 분할 보조 도구)를 소개합니다. VISA는 다중 모달 LLMs의 세계 지식 추론 능력을 활용하면서도 비디오에서 객체를 분할하고 추적하는 마스크 디코더의 능력을 갖추고 있습니다. 또한, 1,042개의 다양한 비디오에서 35,074개의 지침-마스크 시퀀스 쌍으로 구성된 포괄적인 벤치마크를 설립하여, ReasonVOS 모델의 지침 조정 및 평가 목적을 위해 분할 작업에 복잡한 세계 지식 추론을 통합하였습니다. 8개 데이터셋에서 수행된 실험들은 VISA가 비디오 및 이미지 영역 모두에서 복잡한 추론 분할과 일반 참조 분할을 처리하는 데 효과적임을 입증하였습니다. 코드와 데이터셋은 https://github.com/cilinyan/VISA에서 이용 가능합니다.