HyperAIHyperAI
il y a 11 jours

Regroupement de texte transparent pour la segmentation d’image par référence

{ Tyng-Luh Liu, Hwann-Tzong Chen, Yi-Chen Lo, Songhao Jia, Ding-Jie Chen}
Regroupement de texte transparent pour la segmentation d’image par référence
Résumé

Motivés par les techniques classiques de regroupement utilisées pour la segmentation d’images, nous développons leur équivalent basé sur les réseaux de neurones profonds (DNN) afin de traiter la variante référentielle. La méthode proposée repose sur un réseau neuronal convolutif-récursif (ConvRNN) qui effectue itérativement un traitement haut-bas à partir de signaux de segmentation bas-niveau. Étant donné une expression référentielle en langage naturel, notre approche apprend à prédire la pertinence de chaque pixel par rapport à cette expression et génère une carte thermique appelée STEP (See-through-Text Embedding Pixelwise), qui révèle les indices de segmentation au niveau des pixels grâce à une co-embedding visuel-textuel apprise. Le ConvRNN réalise une approximation haut-bas en transformant la carte STEP en une version améliorée, dont l’amélioration est attendue grâce à l’entraînement du réseau avec une perte de classification issue des étiquettes de vérité terrain. À partir de cette carte améliorée, nous mettons à jour la représentation textuelle de l’expression référentielle en réévaluant sa distribution d’attention, puis calculons une nouvelle carte STEP qui constitue l’entrée suivante du ConvRNN. Grâce à cet apprentissage collaboratif, le cadre permet progressivement et simultanément d’obtenir la segmentation référentielle souhaitée ainsi qu’une distribution d’attention raisonnable sur la phrase référentielle. Notre méthode est générale et ne dépend pas, par exemple, des résultats de détection d’objets provenant d’autres modèles DNN, tout en atteignant des performances de pointe sur les quatre jeux de données utilisés dans les expériences.

Regroupement de texte transparent pour la segmentation d’image par référence | Articles de recherche récents | HyperAI