9일 전
시간 기반 브리지 기반 다중모달 대규모 언어 모델의 효율적인 시계열 외삽
Yuxuan Wang, Yueqian Wang, Pengfei Wu, Jianxin Liang, Dongyan Zhao, Yang Liu, Zilong Zheng

초록
다중모달 대규모 언어모델(MLLM)의 발전에도 불구하고, 언어적 질의에 대한 장시간 영상 해석 문제는 여전히 존재하며, 이는 시계열 기반 정확도의 저하와 사전 훈련 시 고정된 컨텍스트 창 크기의 제한으로 인해 발생한다. 본 연구에서는 MLLM에 고도화된 시계열 기반 능력을 부여하고, 컨텍스트 범위를 확장하는 새로운 프레임워크인 시계열 기반 브리지(Temporal Grounding Bridge, TGB)를 제안한다. 제안하는 프레임워크는 세 가지 핵심 기술을 통해 기존 MLLM의 시계열 처리 능력을 크게 향상시킨다. 첫째, 흐름(Flow)에서 추출한 저차원 시계열 특징을 기반으로 효율적인 다중 스팬 시계열 기반 알고리즘을 도입한다. 둘째, 저차원 시계열 특징을 활용하여 훈련 컨텍스트 창 크기를 확장하는 다중모달 길이 외삽 훈련 방식을 제안한다. 셋째, 레이블링 없이도 플러그인형 MLLM과 모델을 연결할 수 있는 부트스트랩 프레임워크를 설계하였다. TGB는 일곱 가지 영상 기반 벤치마크에서 검증되었으며, 기존 MLLM 대비 뚜렷한 성능 향상을 입증하였다. 특히, 초기에 4프레임 길이의 시퀀스로 훈련된 본 모델은 성능 저하 없이 최대 16배 긴 시퀀스를 효과적으로 처리할 수 있어, 실제 응용 환경에서의 확장성과 효율성을 입증하였다. 본 연구의 코드는 공개되어 있으며, https://github.com/bigai-nlco/VideoTGB 에서 확인할 수 있다.