Veritatem Dies Aperit - Prédiction de profondeur temporellement cohérente rendue possible par une approche de compréhension de la scène géométrique et sémantique multi-tâches

La compréhension robuste des scènes géométriques et sémantiques est de plus en plus importante dans de nombreuses applications réelles, telles que la conduite autonome et la navigation robotique. Dans cet article, nous proposons une approche basée sur l'apprentissage multitâche capable d'effectuer simultanément la compréhension géométrique et sémantique des scènes, à savoir la prédiction de profondeur (estimation de profondeur monoculaire et complétion de profondeur) et le segmention sémantique des scènes. Au sein d'un réseau récurrent unique soumis à une contrainte temporelle, notre approche tire parti d'une série complexe de connexions résiduelles, d'un entraînement adversarial et de la contrainte temporelle inhérente à la récurrence des images séquentielles pour produire simultanément des étiquettes de profondeur et de classe sémantique cohérentes. Une évaluation expérimentale approfondie démontre l'efficacité de notre approche par rapport aux autres techniques contemporaines de pointe.Note: "skip connections" is translated as "connexions résiduelles" which is a common term used in French for this concept in deep learning. If you prefer to keep it closer to the original term, you can use "connexions sauteuses" instead.