HyperAIHyperAI
il y a 11 jours

Apprentissage multi-tâches 2D-3D conjoint sur Cityscapes-3D : détection 3D, segmentation et estimation de profondeur

Hanrong Ye, Dan Xu
Apprentissage multi-tâches 2D-3D conjoint sur Cityscapes-3D : détection 3D, segmentation et estimation de profondeur
Résumé

Ce rapport constitue un document complémentaire pour TaskPrompter, détaillant son implémentation sur une nouvelle borne d’apprentissage multi-tâches 2D-3D conjointe basée sur le jeu de données Cityscapes-3D. TaskPrompter présente un cadre innovant d’encodage par tâches (multi-task prompting) qui unifie l’apprentissage de (i) représentations génériques par rapport aux tâches, (ii) représentations spécifiques à chaque tâche, et (iii) interactions entre tâches, contrairement aux approches antérieures qui séparaient ces objectifs d’apprentissage en modules réseaux distincts. Cette approche unifiée réduit non seulement la nécessité d’une conception structurelle empirique minutieuse, mais renforce également de manière significative la capacité d’apprentissage de représentations du réseau multi-tâches, puisque toute la capacité du modèle est mobilisée pour optimiser simultanément ces trois objectifs. TaskPrompter introduit une nouvelle borne multi-tâches fondée sur le jeu de données Cityscapes-3D, qui impose au modèle multi-tâches de générer simultanément des prédictions pour la détection 3D monoculaire de véhicules, la segmentation sémantique et l’estimation de profondeur monoculaire. Ces tâches sont essentielles pour atteindre une compréhension conjointe 2D-3D des scènes visuelles, notamment dans le développement de systèmes de conduite autonome. Sur cette borne exigeante, notre modèle multi-tâches démontre des performances solides par rapport aux méthodes de pointe mono-tâche, et établit de nouveaux états de l’art pour les tâches difficiles de détection 3D et d’estimation de profondeur.