HyperAIHyperAI
il y a 11 jours

Détection de zones sans supervision faible par séparation

Assaf Arbelle, Sivan Doveh, Amit Alfassy, Joseph Shtok, Guy Lev, Eli Schwartz, Hilde Kuehne, Hila Barak Levi, Prasanna Sattigeri, Rameswar Panda, Chun-Fu Chen, Alex Bronstein, Kate Saenko, Shimon Ullman, Raja Giryes, Rogerio Feris, Leonid Karlinsky
Détection de zones sans supervision faible par séparation
Résumé

Actuellement, de grandes quantités de données comprenant des images accompagnées de textes librement associés, mais faiblement corrélés, sont disponibles. Le repérage de phrases sous supervision faible (WSG, Weakly Supervised phrase-Grounding) vise à apprendre à localiser (ou à « ancrer ») des phrases textuelles arbitraires dans des images, sans aucune annotation supplémentaire, en exploitant uniquement ces données. Toutefois, la plupart des méthodes les plus récentes et les plus performantes (SotA) pour le WSG supposent l’existence d’un détecteur d’objets pré-entraîné, qui fournit les régions d’intérêt (ROIs) utilisées pour la localisation. Dans ce travail, nous nous concentrons sur la tâche du WSG sans détecteur (DF-WSG, Detector-Free WSG), afin de résoudre le problème du WSG sans dépendre d’un détecteur pré-entraîné. Nous apprenons directement à partir des paires image-texte librement associées, ce qui permet potentiellement d’améliorer les performances sur des catégories non prises en charge par le détecteur. L’idée centrale de notre méthode proposée, Grounding by Separation (GbS), consiste à créer artificiellement des associations « texte → régions d’image » en effectuant un mélange aléatoire (alpha-blending) de paires d’images arbitraires, puis à utiliser les textes correspondants à ces paires comme conditions pour reconstruire la carte alpha à partir de l’image fusionnée, via un réseau de segmentation. En phase de test, cette approche permet d’utiliser la phrase de requête comme condition appliquée à une image de requête non fusionnée, interprétant ainsi l’image test comme une composition d’une région correspondant à la phrase et d’une région complémentaire. Grâce à cette méthode, nous démontrons une amélioration significative de la précision, atteignant jusqu’à 8,5 % par rapport à l’état de l’art précédent pour le DF-WSG, sur plusieurs benchmarks incluant Flickr30K, Visual Genome et ReferIt, ainsi qu’une amélioration complémentaire notable (supérieure à 7 %) par rapport aux approches basées sur un détecteur pour le WSG.

Détection de zones sans supervision faible par séparation | Articles de recherche récents | HyperAI