Command Palette
Search for a command to run...
4D-RGPT: 지각 증류를 통한 영역 수준의 4차원 이해로 향해
4D-RGPT: 지각 증류를 통한 영역 수준의 4차원 이해로 향해
Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen
초록
다중모달 대규모 언어모델(Multimodal LLM, MLLM)의 발전에도 불구하고, 3차원 구조와 시공간적 동역학에 대한 추론 능력은 여전히 제한적이다. 이는 약한 4차원(4D) 인지 능력과 시계열 이해 능력 부족에 기인한다. 기존의 3차원 및 4차원 비디오 질의응답(Video Question Answering, VQA) 벤치마크는 정적 장면에 중점을 두고 있으며, 영역 수준의 프롬프트(지시)를 제공하지 못하는 점이 문제로 지적된다. 본 연구는 다음과 같은 세 가지 핵심 기여를 통해 이러한 문제를 해결한다: (a) 4D-RGPT, 비디오 입력으로부터 4차원 표현을 보다 향상된 시계열 인지 능력으로 캡처할 수 있도록 설계된 전용 MLLM; (b) Perceptual 4D Distillation (P4D), 고정된 전문 모델로부터 4D 표현을 4D-RGPT로 전이하는 학습 프레임워크로, 종합적인 4D 인지 능력을 구현한다; (c) R4D-Bench, 영역 수준의 프롬프트를 지원하는 깊이 인지 기반의 동적 장면을 대상으로 하며, 자동화된 혼합(하이브리드) 및 인간 검증 프로세스를 통해 구축된 벤치마크. 제안한 4D-RGPT는 기존의 4D VQA 벤치마크와 본 연구에서 제안한 R4D-Bench 모두에서 뚜렷한 성능 향상을 달성하였다.