il y a 6 mois

Résumé

Dans cet article, nous proposons un nouveau réseau visuel auto-soulignant sémantique- spatiale (désigné 3SHNet) pour la recherche d’images et de phrases avec une précision élevée, une efficacité optimale et une généralisation remarquable. Le 3SHNet met en évidence l’identification saillante des objets dominants et de leurs positions spatiales au sein du modality visuelle, permettant ainsi l’intégration des interactions sémantiques-visuelles spatiales tout en préservant l’indépendance entre les deux modalités. Cette intégration combine efficacement les régions d’objets avec les dispositions sémantiques et spatiales correspondantes issues de la segmentation, afin d’améliorer la représentation visuelle. L’indépendance des modalités garantit en outre une efficacité et une généralisation supérieures. En outre, le 3SHNet exploite l’information contextuelle structurée de la scène visuelle fournie par la segmentation pour fournir une guidance locale (basée sur les régions) ou globale (basée sur une grille), permettant ainsi une recherche hybride précise à plusieurs niveaux. Des expérimentations étendues sur les benchmarks MS-COCO et Flickr30K confirment les performances supérieures, l’efficacité d’inférence et la capacité de généralisation du 3SHNet proposée, comparées aux méthodes de pointe actuelles. Plus précisément, sur le jeu de test MS-COCO 5K plus volumineux, nous obtenons des améliorations respectives de 16,3 %, 24,8 % et 18,3 % en termes de score rSum par rapport aux méthodes de pointe utilisant différentes représentations d’images, tout en maintenant une efficacité optimale en récupération. De plus, notre performance en généralisation sur des jeux de données différents s’améliore de 18,6 %. Les données et le code sont disponibles à l’adresse suivante : https://github.com/XuriGe1995/3SHNet.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Xuri Ge Songpei Xu Fuhai Chen Jie Wang Guoxin Wang Shan An Joemon M. Jose

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Xuri Ge Songpei Xu Fuhai Chen Jie Wang Guoxin Wang Shan An Joemon M. Jose

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

3SHNet : Renforcer la recherche d'images et de phrases grâce à une auto-soulignement sémantique-visuel et spatial

Xuri Ge Songpei Xu Fuhai Chen Jie Wang Guoxin Wang Shan An Joemon M. Jose

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

3SHNet : Renforcer la recherche d'images et de phrases grâce à une auto-soulignement sémantique-visuel et spatial

Xuri Ge Songpei Xu Fuhai Chen Jie Wang Guoxin Wang Shan An Joemon M. Jose

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

3SHNet : Renforcer la recherche d'images et de phrases grâce à une auto-soulignement sémantique-visuel et spatial

Xuri Ge Songpei Xu Fuhai Chen Jie Wang Guoxin Wang Shan An Joemon M. Jose

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters