Réseaux de Neurones Récursifs DAG pour l'Étiquetage de Scènes

Dans le domaine de l'étiquetage d'images, les représentations locales pour les unités d'image sont généralement générées à partir de leurs patchs d'image environnants, ce qui entraîne une codification inefficace des informations contextuelles à longue portée. Dans cet article, nous introduisons les réseaux de neurones récurrents (RNNs) pour résoudre ce problème. Plus précisément, nous proposons des RNNs basés sur des graphes dirigés acycliques (DAG-RNNs) pour traiter des images structurées en DAG, permettant ainsi au réseau de modéliser les dépendances sémantiques à longue portée entre les unités d'image. Nos DAG-RNNs sont capables d'améliorer considérablement la puissance discriminante des représentations locales, ce qui bénéficie grandement à la classification locale. Parallèlement, nous proposons une nouvelle fonction de pondération de classe qui accorde une attention particulière aux classes rares, ce qui améliore remarquablement la précision de reconnaissance pour les classes peu fréquentes. En intégrant des couches de convolution et de déconvolution, nos DAG-RNNs obtiennent de nouveaux résultats d'état de l'art sur les benchmarks difficiles SiftFlow, CamVid et Barcelona.