il y a 2 mois

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Résumé

Malgré les progrès réalisés dans les modèles linguistiques multimodaux (MLLM), leur capacité à raisonner sur des structures 3D et des dynamiques temporelles reste limitée, en raison d’une perception 4D et d’une compréhension temporelle faibles. Les benchmarks existants pour la question-réponse vidéo 3D et 4D mettent également l’accent sur des scènes statiques et manquent de stimulation au niveau des régions. Nous abordons ces défis en introduisant : (a) 4D-RGPT, un MLLM spécialisé conçu pour capturer des représentations 4D à partir d’entrées vidéo avec une perception temporelle améliorée ; (b) la distillation perceptuelle 4D (P4D), un cadre d’entraînement qui transfère les représentations 4D depuis un modèle expert figé vers 4D-RGPT afin d’assurer une perception 4D complète ; et (c) R4D-Bench, un benchmark dédié aux scènes dynamiques conscientes de la profondeur, incluant une stimulation au niveau des régions, construit grâce à un pipeline hybride automatisé et vérifié par des humains. Notre modèle 4D-RGPT obtient des améliorations significatives sur les benchmarks 4D vidéo existants ainsi que sur le benchmark proposé R4D-Bench.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

4D-RGPT : Vers une compréhension 4D au niveau des régions par distillation perceptuelle

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

4D-RGPT : Vers une compréhension 4D au niveau des régions par distillation perceptuelle

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

4D-RGPT : Vers une compréhension 4D au niveau des régions par distillation perceptuelle

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters