il y a 7 mois

Résumé

Le positionnement visuel vise à localiser un objet dans une image en se basant sur une phrase de requête textuelle. Plusieurs approches de positionnement visuel ont été proposées, et le problème peut être modulaire en un cadre général : génération de propositions, représentation de caractéristiques multi-modales et classement des propositions. Parmi ces trois modules, la plupart des approches existantes se concentrent sur les deux derniers, tandis que l'importance de la génération de propositions est généralement négligée. Dans cet article, nous repensons au problème des propriétés qui font d'un bon générateur de propositions. Nous introduisons simultanément la diversité et la discrimination lors de la génération des propositions, ce qui nous amène à proposer le modèle Réseaux de Propositions Diversifiés et Discriminants (DDPN). Sur la base des propositions générées par DDPN, nous proposons un modèle de référence à haute performance pour le positionnement visuel et l'évaluons sur quatre jeux de données de référence. Les résultats expérimentaux démontrent que notre modèle apporte des améliorations significatives sur tous les jeux de données testés (par exemple, une amélioration de 18,8 % sur ReferItGame et de 8,2 % sur Flickr30k Entities par rapport aux états de l'art actuels respectivement).

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Détection D'objets

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Zhou Yu Jun Yu* Chenchao Xiang Zhou Zhao Qi Tian Dacheng Tao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Détection D'objets

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Zhou Yu Jun Yu* Chenchao Xiang Zhou Zhao Qi Tian Dacheng Tao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réexaminer la Génération de Propositions Diversifiées et Discriminantes pour le Positionnement Visuel

Zhou Yu Jun Yu* Chenchao Xiang Zhou Zhao Qi Tian Dacheng Tao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réexaminer la Génération de Propositions Diversifiées et Discriminantes pour le Positionnement Visuel

Zhou Yu Jun Yu* Chenchao Xiang Zhou Zhao Qi Tian Dacheng Tao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réexaminer la Génération de Propositions Diversifiées et Discriminantes pour le Positionnement Visuel

Zhou Yu Jun Yu* Chenchao Xiang Zhou Zhao Qi Tian Dacheng Tao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters