HyperAIHyperAI
il y a 11 jours

SeqTR : Un réseau simple mais universel pour le repérage visuel

Chaoyang Zhu, Yiyi Zhou, Yunhang Shen, Gen Luo, Xingjia Pan, Mingbao Lin, Chao Chen, Liujuan Cao, Xiaoshuai Sun, Rongrong Ji
SeqTR : Un réseau simple mais universel pour le repérage visuel
Résumé

Dans cet article, nous proposons un réseau simple mais universel, nommé SeqTR, destiné aux tâches d’ancrage visuel, telles que la localisation d’expressions, la compréhension d’expressions référentielles (REC) et la segmentation d’expressions référentielles (RES). Les paradigmes classiques pour l’ancrage visuel nécessitent souvent une expertise importante dans la conception d’architectures de réseau et de fonctions de perte, ce qui rend difficile leur généralisation à différentes tâches. Pour simplifier et unifier la modélisation, nous reformulons l’ancrage visuel comme un problème de prédiction de points conditionnée par des entrées image et texte, où soit la boîte englobante, soit le masque binaire est représenté comme une séquence de jetons de coordonnées discrètes. Dans ce cadre, les différentes tâches d’ancrage visuel sont unifiées au sein du réseau SeqTR, sans nécessiter de branches ou de têtes spécifiques à chaque tâche, par exemple un décodeur de masque convolutif pour la RES, ce qui réduit considérablement la complexité du modèle multi-tâches. En outre, SeqTR utilise la même fonction d’optimisation pour toutes les tâches, basée sur une simple perte d’entropie croisée, réduisant encore davantage la complexité liée à la conception manuelle de fonctions de perte. Des expériences menées sur cinq jeux de données standard montrent que SeqTR surpassent (ou atteignent au minimum) les états de l’art existants, prouvant ainsi qu’une approche simple et universelle pour l’ancrage visuel est effectivement réalisable. Le code source est disponible à l’adresse suivante : https://github.com/sean-zhuh/SeqTR.

SeqTR : Un réseau simple mais universel pour le repérage visuel | Articles de recherche récents | HyperAI