HyperAIHyperAI
il y a 2 mois

Réexaminer la Génération de Propositions Diversifiées et Discriminantes pour le Positionnement Visuel

Zhou Yu; Jun Yu; Chenchao Xiang; Zhou Zhao; Qi Tian; Dacheng Tao
Réexaminer la Génération de Propositions Diversifiées et Discriminantes pour le Positionnement Visuel
Résumé

Le positionnement visuel vise à localiser un objet dans une image en se basant sur une phrase de requête textuelle. Plusieurs approches de positionnement visuel ont été proposées, et le problème peut être modulaire en un cadre général : génération de propositions, représentation de caractéristiques multi-modales et classement des propositions. Parmi ces trois modules, la plupart des approches existantes se concentrent sur les deux derniers, tandis que l'importance de la génération de propositions est généralement négligée. Dans cet article, nous repensons au problème des propriétés qui font d'un bon générateur de propositions. Nous introduisons simultanément la diversité et la discrimination lors de la génération des propositions, ce qui nous amène à proposer le modèle Réseaux de Propositions Diversifiés et Discriminants (DDPN). Sur la base des propositions générées par DDPN, nous proposons un modèle de référence à haute performance pour le positionnement visuel et l'évaluons sur quatre jeux de données de référence. Les résultats expérimentaux démontrent que notre modèle apporte des améliorations significatives sur tous les jeux de données testés (par exemple, une amélioration de 18,8 % sur ReferItGame et de 8,2 % sur Flickr30k Entities par rapport aux états de l'art actuels respectivement).

Réexaminer la Génération de Propositions Diversifiées et Discriminantes pour le Positionnement Visuel | Articles de recherche récents | HyperAI