Command Palette
Search for a command to run...
4D-RGPT : Vers une compréhension 4D au niveau des régions par distillation perceptuelle
4D-RGPT : Vers une compréhension 4D au niveau des régions par distillation perceptuelle
Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen
Abstract
Malgré les progrès réalisés dans les modèles linguistiques multimodaux (MLLM), leur capacité à raisonner sur des structures 3D et des dynamiques temporelles reste limitée, en raison d’une perception 4D et d’une compréhension temporelle faibles. Les benchmarks existants pour la question-réponse vidéo 3D et 4D mettent également l’accent sur des scènes statiques et manquent de stimulation au niveau des régions. Nous abordons ces défis en introduisant : (a) 4D-RGPT, un MLLM spécialisé conçu pour capturer des représentations 4D à partir d’entrées vidéo avec une perception temporelle améliorée ; (b) la distillation perceptuelle 4D (P4D), un cadre d’entraînement qui transfère les représentations 4D depuis un modèle expert figé vers 4D-RGPT afin d’assurer une perception 4D complète ; et (c) R4D-Bench, un benchmark dédié aux scènes dynamiques conscientes de la profondeur, incluant une stimulation au niveau des régions, construit grâce à un pipeline hybride automatisé et vérifié par des humains. Notre modèle 4D-RGPT obtient des améliorations significatives sur les benchmarks 4D vidéo existants ainsi que sur le benchmark proposé R4D-Bench.