HyperAIHyperAI
il y a 2 mois

VSE++ : Amélioration des plongements visuels-sémantiques avec des négatifs difficiles

Fartash Faghri; David J. Fleet; Jamie Ryan Kiros; Sanja Fidler
VSE++ : Amélioration des plongements visuels-sémantiques avec des négatifs difficiles
Résumé

Nous présentons une nouvelle technique pour l'apprentissage d'embeddings visuels-sémantiques destinés à la recherche intermodale. Inspirée par l'exploitation des exemples négatifs difficiles dans la prédiction structurée et les fonctions de perte de classement, nous introduisons une modification simple aux fonctions de perte couramment utilisées pour les embeddings multimodaux. Cette modification, associée au réglage fin (fine-tuning) et à l'utilisation de données augmentées, permet d'obtenir des gains significatifs en termes de performance de recherche. Nous illustrons notre approche, VSE++, sur les jeux de données MS-COCO et Flickr30K, en utilisant des études d'ablation et des comparaisons avec les méthodes existantes. Sur MS-COCO, notre méthode surpassent les méthodes de pointe actuelles avec un avantage de 8,8 % pour la recherche de légendes (caption retrieval) et 11,3 % pour la recherche d'images (image retrieval) au niveau du R@1.

VSE++ : Amélioration des plongements visuels-sémantiques avec des négatifs difficiles | Articles de recherche récents | HyperAI