HyperAIHyperAI
il y a 17 jours

Segmentation d’images interactive avec diversité latente

{Qifeng Chen, Zhuwen Li, Vladlen Koltun}
Segmentation d’images interactive avec diversité latente
Résumé

La segmentation d’images interactive se caractérise par sa multimodalité. Lorsqu’un utilisateur clique sur une porte, vise-t-il à sélectionner la porte ou toute la maison ? Nous proposons une approche d’apprentissage end-to-end pour la segmentation d’images interactive qui attaque cette ambiguïté. Notre architecture associe deux réseaux de convolution. Le premier est entraîné pour synthétiser un ensemble diversifié de segmentations plausibles conformes à l’entrée utilisateur. Le second est entraîné pour sélectionner parmi ces propositions. En choisissant une seule solution, notre méthode préserve la compatibilité avec les interfaces existantes de segmentation interactive. En générant plusieurs solutions diversifiées avant d’en sélectionner une, l’architecture dispose d’une puissance représentationnelle suffisante pour explorer l’espace des solutions multimodales. Nous montrons que l’approche proposée surpasse les méthodes existantes de segmentation d’images interactive, y compris les travaux antérieurs ayant appliqué des réseaux de convolution à ce problème, tout en étant nettement plus rapide.