2달 전

LITA: 언어 지시 시간 위치화 보조 도구

De-An Huang; Shijia Liao; Subhashree Radhakrishnan; Hongxu Yin; Pavlo Molchanov; Zhiding Yu; Jan Kautz
LITA: 언어 지시 시간 위치화 보조 도구
초록

다중 모드 대형 언어 모델(LLM) 분야에서 엄청난 발전이 이루어졌습니다. 최근 연구에서는 이러한 모델을 비디오 입력으로 확장하여 유망한 지시사항 준수 능력을 보여주었습니다. 그러나 중요한 부족한 부분은 시간적 위치 결정입니다. 이들 모델은 "언제?"라는 질문에 정확하게 답할 수 없습니다. 우리는 이들의 시간적 위치 결정 능력을 제한하는 세 가지 핵심 요소를 다음과 같이 확인하였습니다: (i) 시간 표현, (ii) 아키텍처, (iii) 데이터. 이러한 단점을 해결하기 위해 다음 특징을 가진 언어 지시 시간적 위치 결정 보조 시스템(LITA)을 제안합니다: (1) 비디오 길이에 대한 상대적인 타임스탬프를 인코딩하는 시간 토큰을 도입하여 비디오에서의 시간 표현을 개선합니다. (2) 아키텍처에서 세밀한 시간 해상도로 시간 정보를 포착하기 위한 SlowFast 토큰을 도입합니다. (3) LITA를 위한 시간적 위치 결정 데이터의 중요성을 강조합니다. 기존의 타임스탬프가 있는 비디오 데이터셋을 활용하는 것 외에도, 이 작업을 학습하고 평가하기 위한 새로운 작업인 추론 시간적 위치 결정(RTL)과 해당 데이터셋인 ActivityNet-RTL을 제안합니다. 추론 시간적 위치 결정은 비디오 LLM의 추론 및 시간적 위치 결정 능력을 요구합니다. LITA는 이 어려운 작업에서 뛰어난 성능을 보여주며, 기준 모델들의 시간 평균 교차 연합(mIoU) 값을 거의 두 배로 높였습니다. 또한, 우리는 시간적 위치 결정에 대한 우리의 중점을 기존의 비디오 LLM보다 비디오 기반 텍스트 생성에서도 크게 개선함을 보여주었으며, 특히 시간 이해력에서 36%의 상대적인 개선 효과를 얻었습니다. 코드는 다음 주소에서 제공됩니다: https://github.com/NVlabs/LITA