DenseCap : Réseaux de localisation entièrement convolutionnels pour la légendage dense

Nous présentons la tâche de légendage dense, qui nécessite qu'un système de vision par ordinateur localise et décrit des régions saillantes dans les images à l'aide d'une langue naturelle. La tâche de légendage dense généralise la détection d'objets lorsque les descriptions se composent d'un seul mot, et le légendage d'images lorsque une seule région prédite couvre l'image entière. Pour aborder conjointement les tâches de localisation et de description, nous proposons une architecture de réseau de localisation pleinement convolutionnel (Fully Convolutional Localization Network, FCLN) qui traite une image en un seul passage direct efficace, n'a pas besoin de propositions de régions externes et peut être formée bout à bout avec une seule itération d'optimisation. L'architecture est composée d'un réseau convolutif, d'une nouvelle couche de localisation dense et d'un modèle linguistique de réseau neuronal récurrent qui génère les séquences d'étiquettes. Nous évaluons notre réseau sur le jeu de données Visual Genome, qui comprend 94 000 images et 4 100 000 légendes ancrées dans des régions. Nous constatons des améliorations tant en termes de vitesse que de précision par rapport aux méthodes basées sur l'état actuel de l'art dans les configurations de génération et de recherche.