2달 전

ST-LLM: 대형 언어 모델은 효과적인 시간 학습자입니다.

Ruyang Liu; Chen Li; Haoran Tang; Yixiao Ge; Ying Shan; Ge Li
ST-LLM: 대형 언어 모델은 효과적인 시간 학습자입니다.
초록

대형 언어 모델(LLMs)은 텍스트 이해와 생성에서 뛰어난 능력을 보여주어, 비디오 수준의 인간-AI 상호작용을 촉진하기 위한 비디오 LLM 연구를 촉발시켰습니다. 그러나 비디오 기반 대화 시스템에서 비디오를 효과적으로 인코딩하고 이해하는 방법은 아직 해결되지 않았습니다. 본 논문에서는 간단하지만 탐구되지 않은 질문을 조사합니다: 모든 공간-시간 토큰을 LLM에 입력할 수 있는가? 이 간단한 접근법이 예상외로 비디오 이해에서 상당한 개선을 가져오는 것으로 나타났습니다. 이를 바탕으로, 우리는 공간-시간 시퀀스 모델링이 내장된 효과적인 비디오-LLM 베이스라인인 ST-LLM을 제안합니다. 또한, LLM 내부의 압축되지 않은 비디오 토큰으로 인해 발생하는 오버헤드와 안정성 문제를 해결하기 위해 맞춤형 학습 목표를 가진 동적 마스킹 전략을 개발하였습니다. 특히 긴 비디오의 경우, 효율성과 효과성을 균형 있게 유지하기 위해 글로벌-로컬 입력 모듈도 설계되었습니다. 그 결과, 우리는 LLM을 활용하여 숙련된 공간-시간 모델링을 수행하면서 효율성과 안정성을 유지할 수 있었습니다. 광범위한 실험 결과는 우리의 방법론의 유효성을 입증합니다. 더 간결한 모델과 학습 파이프라인을 통해 ST-LLM은 VideoChatGPT-Bench와 MVBench에서 새로운 최고 성능 결과를 달성하였습니다. 코드는 https://github.com/TencentARC/ST-LLM에서 제공됩니다.