PhraseCut : Segmentations d'images basée sur le langage dans des environnements réels

Nous abordons le problème de la segmentation de régions d’image à partir d’une expression en langage naturel, et étudions ce problème sur un nouveau jeu de données comprenant 77 262 images et 345 486 paires expression-région. Ce jeu de données est construit à partir du dataset Visual Genome et utilise les annotations existantes pour générer un ensemble exigeant d’expressions référentielles, dont les régions correspondantes ont été annotées manuellement. Les expressions de notre jeu de données font référence à plusieurs régions et décrivent un grand nombre de catégories d’objets et de « stuff », ainsi que leurs attributs tels que la couleur, la forme, les parties et les relations avec d’autres entités présentes dans l’image. Nos expériences montrent que l’échelle et la diversité des concepts présents dans notre jeu de données posent des défis significatifs aux approches actuelles de pointe. Nous traitons de manière systématique la nature à queue longue de ces concepts et proposons une approche modulaire combinant des indices provenant des catégories, des attributs et des relations, qui surpassent les méthodes existantes.