HyperAIHyperAI
il y a 2 mois

SwinMTL : Une architecture partagée pour l'estimation de profondeur et la segmentation sémantique simultanées à partir d'images de caméra monoculaire

Pardis Taghavi; Reza Langari; Gaurav Pandey
SwinMTL : Une architecture partagée pour l'estimation de profondeur et la segmentation sémantique simultanées à partir d'images de caméra monoculaire
Résumé

Ce rapport de recherche présente un cadre novateur d'apprentissage multi-tâches permettant une estimation de profondeur et une segmentation sémantique simultanées à l'aide d'une seule caméra. L'approche proposée repose sur une architecture partagée encodeur-décodeur, qui intègre diverses techniques pour améliorer la précision des tâches d'estimation de profondeur et de segmentation sémantique sans compromettre l'efficacité computationnelle. De plus, le rapport incorpore un composant d'entraînement adversarial, utilisant un cadre GAN de Wasserstein avec un réseau critique, afin de raffiner les prédictions du modèle. Le cadre est évalué en détail sur deux jeux de données : le jeu de données Cityscapes en extérieur et le jeu de données NYU Depth V2 en intérieur, surpassant les méthodes existantes les plus performantes dans les tâches de segmentation et d'estimation de profondeur. Nous avons également mené des études par élimination (ablation studies) pour analyser les contributions des différents composants, notamment les stratégies d'entraînement préalable, l'inclusion des réseaux critiques, l'utilisation d'un échelonnage logarithmique de la profondeur et des augmentations d'image avancées, afin de mieux comprendre le cadre proposé. Le code source accompagnant ce travail est disponible à l'adresse \url{https://github.com/PardisTaghavi/SwinMTL}.

SwinMTL : Une architecture partagée pour l'estimation de profondeur et la segmentation sémantique simultanées à partir d'images de caméra monoculaire | Articles de recherche récents | HyperAI