il y a 2 mois

Analyse de Scènes Récurrentes avec Compréhension de la Perspective dans la Boucle

Shu Kong; Charless Fowlkes

Résumé

Les objets peuvent apparaître à des échelles arbitraires dans les images en perspective d'une scène, ce qui pose un défi pour les systèmes de reconnaissance qui traitent les images à une résolution fixe. Nous proposons un module de contrôle en profondeur qui sélectionne de manière adaptative la taille du champ de pooling dans une architecture de réseau convolutif selon l'échelle de l'objet (inversément proportionnelle à la profondeur), afin que les petits détails soient préservés pour les objets lointains tandis que des champs récepteurs plus larges sont utilisés pour ceux qui sont proches. Le signal de contrôle en profondeur est fourni par la disparité stéréoscopique ou estimé directement à partir d'une entrée monoculaire. Nous intégrons ce contrôle en profondeur dans un réseau neuronal convolutif récurrent pour effectuer une segmentation sémantique. Notre module récurrent affine itérativement les résultats de segmentation, en exploitant la profondeur et les prédictions sémantiques des itérations précédentes.À travers des expériences approfondies sur quatre jeux de données RGB-D à grande échelle populaires, nous démontrons que cette approche atteint des performances compétitives en segmentation sémantique avec un modèle considérablement plus compact. Nous menons une analyse exhaustive de cette architecture, y compris des variantes qui opèrent sur des images RGB monoculaires mais utilisent la profondeur comme information latérale pendant l'entraînement, le contrôle non supervisé comme mécanisme d'attention générique, et le contrôle multi-résolution. Nous constatons que le pooling contrôlé conjointement pour la segmentation sémantique et la profondeur produit des résultats d'avant-garde pour l'estimation quantitative de la profondeur monoculaire.