HyperAIHyperAI
il y a 4 mois

ReSeg : Un Modèle Basé sur les Réseaux Neuronaux Récurents pour la Segmentation Sémantique

Francesco Visin; Marco Ciccone; Adriana Romero; Kyle Kastner; Kyunghyun Cho; Yoshua Bengio; Matteo Matteucci; Aaron Courville
ReSeg : Un Modèle Basé sur les Réseaux Neuronaux Récurents pour la Segmentation Sémantique
Résumé

Nous proposons une architecture de prédiction structurée qui exploite les caractéristiques génériques locales extraites par les Réseaux Neuronaux Convolutifs et la capacité des Réseaux Neuronaux Récursifs (RNN) à récupérer des dépendances distantes. L'architecture proposée, appelée ReSeg, est basée sur le modèle ReNet récemment introduit pour la classification d'images. Nous modifions et étendons ce modèle pour effectuer la tâche plus complexe de segmentation sémantique. Chaque couche ReNet est composée de quatre RNN qui balayent l'image horizontalement et verticalement dans les deux directions, encodant des patches ou des activations, et fournissant des informations globales pertinentes. De plus, les couches ReNet sont empilées au-dessus de couches convolutives pré-entraînées, bénéficiant ainsi des caractéristiques génériques locales. Des couches de rééchantillonnage suivent les couches ReNet pour retrouver la résolution originale de l'image dans les prédictions finales. L'architecture ReSeg proposée est efficace, flexible et adaptée à diverses tâches de segmentation sémantique. Nous évaluons ReSeg sur plusieurs ensembles de données largement utilisés pour la segmentation sémantique : Weizmann Horse, Oxford Flower et CamVid ; obtenant des performances de pointe. Les résultats montrent que ReSeg peut servir d'architecture appropriée pour les tâches de segmentation sémantique et pourrait avoir d'autres applications dans d'autres problèmes de prédiction structurée. Le code source et les hyperparamètres du modèle sont disponibles sur https://github.com/fvisin/reseg.