HyperAIHyperAI

Command Palette

Search for a command to run...

VSE++ : Amélioration des plongements visuels-sémantiques avec des négatifs difficiles

Fartash Faghri David J. Fleet Jamie Ryan Kiros Sanja Fidler

Résumé

Nous présentons une nouvelle technique pour l'apprentissage d'embeddings visuels-sémantiques destinés à la recherche intermodale. Inspirée par l'exploitation des exemples négatifs difficiles dans la prédiction structurée et les fonctions de perte de classement, nous introduisons une modification simple aux fonctions de perte couramment utilisées pour les embeddings multimodaux. Cette modification, associée au réglage fin (fine-tuning) et à l'utilisation de données augmentées, permet d'obtenir des gains significatifs en termes de performance de recherche. Nous illustrons notre approche, VSE++, sur les jeux de données MS-COCO et Flickr30K, en utilisant des études d'ablation et des comparaisons avec les méthodes existantes. Sur MS-COCO, notre méthode surpassent les méthodes de pointe actuelles avec un avantage de 8,8 % pour la recherche de légendes (caption retrieval) et 11,3 % pour la recherche d'images (image retrieval) au niveau du R@1.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VSE++ : Amélioration des plongements visuels-sémantiques avec des négatifs difficiles | Articles | HyperAI