HyperAIHyperAI
il y a 15 jours

FocalClick : Vers une segmentation d’image interactive pratique

Xi Chen, Zhiyan Zhao, Yilei Zhang, Manni Duan, Donglian Qi, Hengshuang Zhao
FocalClick : Vers une segmentation d’image interactive pratique
Résumé

La segmentation interactive permet aux utilisateurs d’extraire des masques cibles en effectuant des clics positifs ou négatifs. Bien que ce sujet ait été largement exploré dans de nombreuses études antérieures, un écart subsiste entre les approches académiques et les besoins industriels : d’une part, les modèles existants ne sont pas assez efficaces pour fonctionner sur des dispositifs à faible puissance ; d’autre part, leur performance est médiocre lorsqu’ils sont utilisés pour affiner des masques préexistants, car ils ont tendance à détruire les parties correctes. FocalClick résout simultanément ces deux problèmes en prédisant et en mettant à jour le masque dans des régions localisées. Pour améliorer l’efficacité, nous décomposons la prédiction lente sur toute l’image en deux inférences rapides sur de petites régions : une segmentation grossière sur la « Target Crop » (région cible), suivie d’un affinement local sur la « Focus Crop » (région d’attention). Afin de permettre au modèle de fonctionner avec des masques préexistants, nous introduisons une sous-tâche nommée Correction Interactive de Masque, et proposons une solution appelée Progressive Merge. Cette dernière exploite les informations morphologiques pour décider où préserver et où mettre à jour, permettant ainsi aux utilisateurs d’affiner efficacement n’importe quel masque préexistant. FocalClick atteint des résultats compétitifs par rapport aux méthodes de pointe (SOTA), tout en nécessitant un nombre de FLOPs significativement réduit. Il se distingue également nettement lorsqu’il s’agit de corriger des masques préexistants. Le code source et les données seront publiés sur github.com/XavierCHEN34/ClickSEG.

FocalClick : Vers une segmentation d’image interactive pratique | Articles de recherche récents | HyperAI