HyperAIHyperAI
il y a 15 jours

3SHNet : Renforcer la recherche d'images et de phrases grâce à une auto-soulignement sémantique-visuel et spatial

Xuri Ge, Songpei Xu, Fuhai Chen, Jie Wang, Guoxin Wang, Shan An, Joemon M. Jose
3SHNet : Renforcer la recherche d'images et de phrases grâce à une auto-soulignement sémantique-visuel et spatial
Résumé

Dans cet article, nous proposons un nouveau réseau visuel auto-soulignant sémantique- spatiale (désigné 3SHNet) pour la recherche d’images et de phrases avec une précision élevée, une efficacité optimale et une généralisation remarquable. Le 3SHNet met en évidence l’identification saillante des objets dominants et de leurs positions spatiales au sein du modality visuelle, permettant ainsi l’intégration des interactions sémantiques-visuelles spatiales tout en préservant l’indépendance entre les deux modalités. Cette intégration combine efficacement les régions d’objets avec les dispositions sémantiques et spatiales correspondantes issues de la segmentation, afin d’améliorer la représentation visuelle. L’indépendance des modalités garantit en outre une efficacité et une généralisation supérieures. En outre, le 3SHNet exploite l’information contextuelle structurée de la scène visuelle fournie par la segmentation pour fournir une guidance locale (basée sur les régions) ou globale (basée sur une grille), permettant ainsi une recherche hybride précise à plusieurs niveaux. Des expérimentations étendues sur les benchmarks MS-COCO et Flickr30K confirment les performances supérieures, l’efficacité d’inférence et la capacité de généralisation du 3SHNet proposée, comparées aux méthodes de pointe actuelles. Plus précisément, sur le jeu de test MS-COCO 5K plus volumineux, nous obtenons des améliorations respectives de 16,3 %, 24,8 % et 18,3 % en termes de score rSum par rapport aux méthodes de pointe utilisant différentes représentations d’images, tout en maintenant une efficacité optimale en récupération. De plus, notre performance en généralisation sur des jeux de données différents s’améliore de 18,6 %. Les données et le code sont disponibles à l’adresse suivante : https://github.com/XuriGe1995/3SHNet.

3SHNet : Renforcer la recherche d'images et de phrases grâce à une auto-soulignement sémantique-visuel et spatial | Articles de recherche récents | HyperAI