HyperAIHyperAI
il y a 2 mois

PAD-Net : Réseau de prédiction et de distillation guidé par plusieurs tâches pour l'estimation simultanée de la profondeur et l'analyse de scène

Dan Xu; Wanli Ouyang; Xiaogang Wang; Nicu Sebe
PAD-Net : Réseau de prédiction et de distillation guidé par plusieurs tâches pour l'estimation simultanée de la profondeur et l'analyse de scène
Résumé

L'estimation de profondeur et l'analyse de scène sont deux tâches particulièrement importantes dans la compréhension visuelle des scènes. Dans cet article, nous abordons le problème de l'estimation simultanée de la profondeur et de l'analyse de scène au sein d'un CNN conjoint. Cette tâche peut généralement être traitée comme un problème d'apprentissage profond multi-tâches [42]. Contrairement aux méthodes précédentes qui optimisent directement plusieurs tâches à partir des données d'entraînement fournies, cet article propose un nouveau réseau de prédiction guidée multi-tâches et de distillation (PAD-Net), qui prédit d'abord un ensemble de tâches intermédiaires auxiliaires allant du niveau bas au niveau élevé, puis utilise les prédictions issues de ces tâches intermédiaires auxiliaires comme entrées multimodales via nos modules de distillation multimodale proposés pour les tâches finales. Au cours de l'apprentissage conjoint, les tâches intermédiaires non seulement agissent comme une supervision pour apprendre des représentations profondes plus robustes, mais fournissent également des informations multimodales riches pour améliorer les tâches finales. Des expériences approfondies ont été menées sur deux ensembles de données difficiles (à savoir NYUD-v2 et Cityscapes) pour les tâches d'estimation de profondeur et d'analyse de scène, démontrant ainsi l'efficacité de l'approche proposée.