il y a 4 mois
Prédiction de la profondeur, des normales de surface et des étiquettes sémantiques avec une architecture convolutive multi-échelle commune
David Eigen; Rob Fergus

Résumé
Dans cet article, nous abordons trois tâches différentes de vision par ordinateur en utilisant une seule architecture de base : la prédiction de profondeur, l'estimation des normales de surface et l'étiquetage sémantique. Nous utilisons un réseau neuronal convolutif multi-échelle qui peut s'adapter facilement à chaque tâche avec seulement de légères modifications, en régressant directement de l'image d'entrée à la carte de sortie. Notre méthode affine progressivement les prédictions en utilisant une séquence d'échelles et capture de nombreux détails d'image sans recourir à des superpixels ou à une segmentation bas-niveau. Nous obtenons des performances au niveau de l'état de l'art sur les bancs d'essai pour chacune des trois tâches.