2달 전

Elysium: 비디오에서 객체 수준 인식을 위한 MLLM 활용 연구

Han Wang; Yanjie Wang; Yongjie Ye; Yuxiang Nie; Can Huang
Elysium: 비디오에서 객체 수준 인식을 위한 MLLM 활용 연구
초록

다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 정지 이미지에서 객체를 인식하는 능력을 입증하였지만, 객체 추적과 같은 비디오 관련 작업에 대한 적용은 아직 충분히 연구되지 않았습니다. 이러한 탐구 부족은 주로 두 가지 핵심 과제 때문입니다. 첫째, MLLMs가 여러 프레임을 통해 객체를 인식하고 프레임 간 관계를 이해할 수 있도록 하기 위해서는 대규모 비디오 데이터셋에서의 광범위한 사전 훈련이 필요합니다. 둘째, 대형 언어 모델(Large Language Models, LLMs)의 컨텍스트 윈도우 내에서 많은 수의 프레임을 처리하는 것은 상당한 계산 부담을 초래할 수 있습니다. 첫 번째 과제를 해결하기 위해, 우리는 단일 객체 추적(Single Object Tracking, SOT), 참조 단일 객체 추적(Referring Single Object Tracking, RSOT), 그리고 비디오 참조 표현 생성(Video Referring Expression Generation, Video-REG) 세 가지 작업을 지원하는 대규모 비디오 데이터셋인 ElysiumTrack-1M을 소개합니다. ElysiumTrack-1M은 127만 개의 주석된 비디오 프레임과 해당 객체 박스 및 설명을 포함하고 있습니다. 이 데이터셋을 활용하여 MLLMs의 훈련을 진행하고, 두 번째 과제를 해결하기 위해 토큰 압축 모델 T-Selector를 제안합니다. 우리가 제안하는 접근 방식인 Elysium: MLLM을 통한 비디오 내 객체 수준 인식 탐구는 어떠한 추가적인 플러그인이나 전문가 모델도 필요하지 않은 엔드투엔드 학습 가능한 MLLM입니다. 모든 코드와 데이터셋은 https://github.com/Hon-Wong/Elysium에서 이용 가능합니다.