HyperAIHyperAI

Command Palette

Search for a command to run...

LongVT: 내재적 도구 호출을 통한 "긴 영상으로 사고하기" 유도

Zuhao Yang Sudong Wang Kaichen Zhang Keming Wu Sicong Leng Yifan Zhang Chengwei Qin Shijian Lu Xingxuan Li Lidong Bing

초록

대규모 다중모달 모델(LMMs)은 텍스트 기반 사고 체인(Chain-of-Thought)을 활용한 비디오 추론에서 큰 잠재력을 보여주고 있으나, 특히 증거가 희박하고 시간적으로 분산된 장시간 비디오를 처리할 경우 환각(hallucination)에 취약한 문제가 존재한다. 인간이 장시간 비디오를 이해하는 방식—즉, 먼저 전반적인 개요를 빠르게 스캔한 후 관련 클립을 세부적으로 분석하는 방식—을 영감으로 삼아, 우리는 '장시간 비디오로 사고하기(Thinking with Long Videos)'를 가능하게 하는 엔드투엔드 에이전트 기반 프레임워크인 LongVT를 제안한다. 이 프레임워크는 교차 배치된 다중모달 도구-사고 체인(Multimodal Chain-of-Tool-Thought)을 통해 작동한다. 구체적으로, LMMs가 내재적으로 가진 시계열 정위(temoral grounding) 능력을 원천적인 비디오 자르기 도구로 활용하여 특정 비디오 클립에 초점을 맞추고, 더 세밀한 프레임을 재샘플링한다. 이 전역-국지적 추론 루프는 시각적 증거로 확인된 답변이 도출될 때까지 반복된다. 장시간 비디오 추론 작업을 위한 세밀한 질의응답(QA) 데이터의 부족을 고려해, 우리는 학습과 평가를 지원하기 위해 VideoSIAH라는 데이터 세트를 구축하였으며, 공개할 예정이다. 구체적으로, 학습 데이터셋은 도구 통합형 콜드스타트 지도형 미세조정을 위한 247.9만 개의 샘플, 에이전트 기반 강화학습을 위한 1,600개의 샘플, 에이전트 기반 강화 미세조정을 위한 15.4만 개의 샘플로 구성되어 있다. 평가 벤치마크는 반자동 데이터 파이프라인과 인간-인-더-루프( human-in-the-loop) 검증을 통해 철저히 정제된 1,280개의 QA 쌍으로 구성되어 있다. 철저히 설계된 3단계 학습 전략과 광범위한 실험적 검증을 통해, LongVT는 네 가지 도전적인 장시간 비디오 이해 및 추론 벤치마크에서 기존의 강력한 베이스라인을 일관되게 상회한다. 코드, 데이터, 모델 체크포인트는 https://github.com/EvolvingLMMs-Lab/LongVT 에서 공개되어 있다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
LongVT: 내재적 도구 호출을 통한 "긴 영상으로 사고하기" 유도 | 문서 | HyperAI초신경