HyperAIHyperAI
il y a 2 mois

Récupération d'Objets par Langage Naturel

Ronghang Hu; Huazhe Xu; Marcus Rohrbach; Jiashi Feng; Kate Saenko; Trevor Darrell
Récupération d'Objets par Langage Naturel
Résumé

Dans cet article, nous abordons la tâche de récupération d'objets par langage naturel, qui consiste à localiser un objet cible au sein d'une image donnée en fonction d'une requête en langage naturel de l'objet. La récupération d'objets par langage naturel diffère de la tâche de recherche d'images basée sur le texte car elle implique des informations spatiales sur les objets dans la scène et le contexte global de la scène. Pour résoudre ce problème, nous proposons un nouveau modèle de réseau convolutif récurrent avec contexte spatial (Spatial Context Recurrent ConvNet, SCRC) comme fonction de notation pour les boîtes candidates lors de la récupération d'objets, intégrant les configurations spatiales et les informations contextuelles globales au niveau de la scène dans le réseau. Notre modèle traite le texte de la requête, les descripteurs locaux d'image, les configurations spatiales et les caractéristiques contextuelles globales à travers un réseau récurrent, produit la probabilité du texte de la requête conditionnée par chaque boîte candidate sous forme de score pour la boîte, et peut transférer des connaissances visuo-linguistiques du domaine des légendes d'images à notre tâche. Les résultats expérimentaux montrent que notre méthode utilise efficacement à la fois les informations locales et globales, surpassant significativement les méthodes de base précédentes sur différents jeux de données et scénarios, et peut exploiter des jeux de données visuels et linguistiques à grande échelle pour le transfert de connaissances.

Récupération d'Objets par Langage Naturel | Articles de recherche récents | HyperAI