LiveCC: 실시간 영상 해설 대형 모델

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)

초록

최근의 영상 대규모 언어 모델(Video LLM)은 훈련 데이터를 생성하기 위해 비용이 많이 드는 인간 주석(annotation)이나 전용 모델 API(예: GPT-4o)에 의존하는 경우가 많아, 대규모 훈련에 한계가 있다. 본 논문에서는 저비용의 자동 음성 인식(ASR) 전사본을 활용하여 Video LLM의 대규모 훈련을 탐구한다. 구체적으로, ASR 단어와 영상 프레임을 각각의 타임스탬프에 따라 밀집하게 혼합하는 새로운 스트리밍 훈련 방식을 제안한다. 기존의 ASR을 활용한 시각-언어 표현 연구와 비교해, 본 방법은 ASR의 스트리밍 특성을 자연스럽게 반영하여, 시간적으로 정렬된 세밀한 수준의 시각-언어 모델링을 가능하게 한다. 이러한 훈련 알고리즘을 지원하기 위해, 유튜브 영상과 자막(Closed Caption, CC, 동일하게 ASR로 처리됨)을 처리하는 데이터 생성 파이프라인을 제안하며, 사전 훈련을 위한 Live-CC-5M 데이터셋과 고품질 지도형 미세조정(SFT)을 위한 Live-WhisperX-526K 데이터셋을 구성하였다. 놀랍게도, SFT 없이도 ASR 전용 사전 훈련된 LiveCC-7B-Base 모델은 경쟁력 있는 일반 영상 질의응답(QA) 성능을 보이며, 실시간 영상 해설이라는 새로운 기능을 구현한다. 이를 평가하기 위해, LLM을 심사자로 활용하여 자유형 해설을 측정할 수 있도록 신규의 LiveSports-3K 벤치마크를 철저히 설계하였다. 실험 결과, 최종 모델인 LiveCC-7B-Instruct는 실시간 모드에서도 Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B와 같은 고성능 72B 규모 모델을 초월하는 해설 품질을 달성하였다. 동시에 VideoMME 및 OVOBench와 같은 주요 영상 QA 벤치마크에서 7B/8B 규모에서 최고 성능을 기록하며, 본 연구 방법의 광범위한 일반화 능력을 입증하였다. 본 논문의 모든 자료는 다음 URL에서 공개되어 있다.

소스 PDF 코드 보기