Command Palette
Search for a command to run...
4D-RGPT:通过感知蒸馏实现区域级4D理解
4D-RGPT:通过感知蒸馏实现区域级4D理解
Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen
Abstract
尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)取得了显著进展,其在三维结构与时空动态推理方面的能力仍然受限,主要受制于薄弱的四维(4D)感知与时间理解能力。现有的三维及四维视频问答(4D Video Question Answering, VQA)基准测试也多聚焦于静态场景,缺乏基于区域级别的提示机制。针对上述问题,本文提出三项关键贡献:(a)4D-RGPT,一种专为从视频输入中捕捉四维表征而设计的多模态大语言模型,具备增强的时间感知能力;(b)感知四维蒸馏(Perceptual 4D Distillation, P4D),一种训练框架,通过将冻结专家模型中的四维表征迁移至4D-RGPT,实现全面的四维感知能力;(c)R4D-Bench,一个面向深度感知动态场景、支持区域级别提示的新型基准测试,基于混合自动化与人工验证的构建流程开发而成。实验结果表明,所提出的4D-RGPT在现有4D VQA基准以及本文提出的R4D-Bench基准上均取得了显著性能提升。