2달 전
LLaVA-MR: 대형 언어-시각 보조 시스템을 이용한 비디오 순간 검색
Lu, Weiheng ; Li, Jian ; Yu, An ; Chang, Ming-Ching ; Ji, Shengpeng ; Xia, Min

초록
다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 시각 인식, 이해 및 추론에 널리 사용되고 있습니다. 그러나 긴 비디오 처리와 정확한 순간 검색은 LLMs의 제한된 컨텍스트 크기와 거친 프레임 추출로 인해 여전히 어려움을 겪고 있습니다. 우리는 MLLMs을 사용하여 비디오에서 정확한 순간 검색과 컨텍스트 기반 지점을 가능하게 하는 대형 언어-비전 조수(Large Language-and-Vision Assistant for Moment Retrieval, LLaVA-MR)를 제안합니다. LLaVA-MR은 공간-시간 특성 추출을 위한 밀도 높은 프레임 및 시간 인코딩(Dense Frame and Time Encoding, DFTE), 간략한 시각적 및 운동 패턴을 포착하기 위한 정보 프레임 선택(Informative Frame Selection, IFS), 그리고 LLM 컨텍스트 제한 관리를 위한 동적 토큰 압축(Dynamic Token Compression, DTC)을 결합합니다. Charades-STA 및 QVHighlights 등의 벤치마크에서 평가한 결과, LLaVA-MR은 11개의 최신 방법들을 능가하며, QVHighlights 데이터셋에서 [email protected]에서 1.82%, [email protected]에서 1.29%의 개선을 달성했습니다. 우리의 구현은 수용 시 오픈 소스로 공개될 예정입니다.