2달 전
TimeChat: 시간 감응형 다중 모드 대형 언어 모델을 이용한 장편 비디오 이해
Shuhuai Ren; Linli Yao; Shicheng Li; Xu Sun; Lu Hou

초록
본 연구는 장기 비디오 이해를 위해 특별히 설계된 시간 감응형 다중 모달 대형 언어 모델인 TimeChat을 제안합니다. 본 모델은 두 가지 주요 구조적 기여를 포함하고 있습니다: (1) 타임스탬프 인식 프레임 인코더로, 각 프레임의 시각적 콘텐츠와 타임스탬프를 결합하며, (2) 길이가 변하는 비디오 토큰 시퀀스를 생성하여 다양한 길이의 비디오를 수용할 수 있는 슬라이딩 비디오 Q-Former입니다. 또한, 6개의 작업과 총 125,000개의 인스턴스를 포함하는 지시문 조정 데이터셋을 구성하여 TimeChat의 지시문 준수 성능을 더욱 향상시키고 있습니다. 밀도 캡셔닝, 시간적 정렬, 하이라이트 검출 등 다양한 비디오 이해 작업에서 실험 결과가 TimeChat의 강력한 제로샷 시간적 위치 결정 및 추론 능력을 입증합니다. 예를 들어, YouCook2에서는 +9.2 F1 점수와 +2.8 CIDEr, QVHighlights에서는 +5.8 HIT@1, Charades-STA에서는 +27.5 R@1 (IoU=0.5) 등의 성능을 보였으며, 이는 최신 비디오 대형 언어 모델과 비교할 때 실질적인 사용자 요구사항을 충족시키고 장기 비디오 이해 작업에 유연하게 적용될 수 있는 잠재력을 가지고 있음을 나타냅니다.