Command Palette
Search for a command to run...
Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

초록
최근 연구에서는 사용자의 요청에 답변하기 전에 대규모 언어모델(LLM)이 자연어로 추론 과정을 생성하도록 유도하는 것이 다양한 작업에서 모델 성능을 크게 향상시킬 수 있음을 보여주었다. 이 접근법은 입력 영상과 동영상의 내용에 대해 체인-오프-사고(Chain-of-Thought, CoT)를 생성할 수 있는 다중모달 LLM으로 확장되었다. 본 연구에서는 추론 단계가 관련 영상 프레임에 기반을 두고, 명시적으로 해당 프레임을 참조하는 영상 기반 LLM을 개발하는 것을 제안한다. 이를 위해 먼저 자연 영상과 합성 영상에 대해 다양한 주제와 작업을 아우르는 질문, 답변 및 해당 프레임에 기반한 추론 과정을 포함하는 대규모 데이터셋인 CoF-Data를 구축하였다. 이후 기존 영상 기반 LLM을 이러한 프레임 기반 체인(Chain-of-Frames, CoF) 데이터셋으로 미세조정(fine-tune)한다. 제안하는 방법은 간단하고 자가 완전한 구조를 가지며, 기존 영상 CoT 접근법과 달리 관련 프레임을 선택하거나 설명하는 보조 네트워크를 필요로 하지 않는다. 실험 결과, CoF 기반 모델은 주어진 질문에 답하기 위해 핵심 프레임을 정확히 참조하는 체인-오프-사고를 생성할 수 있음을 입증하였다. 이는 여러 영상 이해 벤치마크에서 성능 향상으로 이어지며, 특히 Video-MME, MVBench, VSI-Bench에서 최상위 영상 LLM을 초월하고, 환상(허구적 생성) 발생률을 뚜렷이 감소시킨다. 코드는 다음 URL에서 제공된다: https://example.com