Command Palette

Search for a command to run...

7일 전

검토자: 텍스트적 반성을 넘어서, 장문의 비디오 이해에서 다중모달 내면적 사고로 전환하기

Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

검토자: 텍스트적 반성을 넘어서, 장문의 비디오 이해에서 다중모달 내면적 사고로 전환하기

초록

문자 기반의 재고(rethinking) 과정에만 의존하는 자기반성 메커니즘은 대부분의 다중모달 작업에서 우수한 성능을 보인다. 그러나 장시간 영상 이해 시나리오에 직접 적용할 경우 명백한 한계를 드러낸다. 이러한 한계의 근본적인 원인은 두 가지에 있다. (1) 장시간 영상 이해는 더 풍부하고 동적인 시각 정보를 포함하므로, 오직 텍스트 정보만을 재고하는 것은 부족하며, 시각 정보에 특화된 추가적인 재고 과정이 필요하다; (2) 순수하게 텍스트 기반의 반성 메커니즘은 다중모달 상호작용 능력이 부족하여, 반성 과정에서 시각 정보를 충분히 통합할 수 없다. 이러한 통찰을 바탕으로, 우리는 도구 보강형 다중모달 반성을 위한 새로운 프레임워크인 REVISOR (REflective VIsual Segment Oriented Reasoning)를 제안한다. REVISOR는 MLLM(다중모달 대규모 언어 모델)이 텍스트와 시각 모달 간에 공동으로 내면적 반성 과정을 구성할 수 있도록 하여, 장시간 영상 이해에 대한 추론 능력을 크게 향상시킨다. 강화 학습 과정에서 REVISOR가 질문과 관련성이 높은 영상 세그먼트를 정확히 검토할 수 있도록 하기 위해, 이중 할당 분리 보상(Dual Attribution Decoupled Reward, DADR) 메커니즘을 설계하였다. 이 메커니즘은 GRPO 학습 전략에 통합되어 모델의 추론과 선택된 영상 증거 사이에 인과적 일치를 강제한다. 특히 REVISOR 프레임워크는 보조적인 지도형 미세조정 또는 외부 모델의 필요 없이 MLLM의 장시간 영상 이해 능력을 크게 향상시키며, VideoMME, LongVideoBench, MLVU, LVBench 등 네 가지 벤치마크에서 뛰어난 성과를 달성하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
검토자: 텍스트적 반성을 넘어서, 장문의 비디오 이해에서 다중모달 내면적 사고로 전환하기 | 연구 논문 | HyperAI초신경