HyperAIHyperAI

Command Palette

Search for a command to run...

4D-RGPT : Vers une compréhension 4D au niveau des régions par distillation perceptuelle

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Abstract

Malgré les progrès réalisés dans les modèles linguistiques multimodaux (MLLM), leur capacité à raisonner sur des structures 3D et des dynamiques temporelles reste limitée, en raison d’une perception 4D et d’une compréhension temporelle faibles. Les benchmarks existants pour la question-réponse vidéo 3D et 4D mettent également l’accent sur des scènes statiques et manquent de stimulation au niveau des régions. Nous abordons ces défis en introduisant : (a) 4D-RGPT, un MLLM spécialisé conçu pour capturer des représentations 4D à partir d’entrées vidéo avec une perception temporelle améliorée ; (b) la distillation perceptuelle 4D (P4D), un cadre d’entraînement qui transfère les représentations 4D depuis un modèle expert figé vers 4D-RGPT afin d’assurer une perception 4D complète ; et (c) R4D-Bench, un benchmark dédié aux scènes dynamiques conscientes de la profondeur, incluant une stimulation au niveau des régions, construit grâce à un pipeline hybride automatisé et vérifié par des humains. Notre modèle 4D-RGPT obtient des améliorations significatives sur les benchmarks 4D vidéo existants ainsi que sur le benchmark proposé R4D-Bench.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
4D-RGPT : Vers une compréhension 4D au niveau des régions par distillation perceptuelle | Papers | HyperAI