HyperAIHyperAI
il y a 2 mois

Apprentissage de Visual N-Grams à partir de Données Web

Ang Li; Allan Jabri; Armand Joulin; Laurens van der Maaten
Apprentissage de Visual N-Grams à partir de Données Web
Résumé

Les systèmes de reconnaissance d'images dans le monde réel doivent être capables d'identifier des dizaines de milliers de classes représentant une multitude de concepts visuels. L'approche traditionnelle consistant à annoter des milliers d'images par classe pour l'entraînement est irréalisable dans un tel contexte, ce qui pousse à l'utilisation de données supervisées par le web. Cet article explore l'entraînement de systèmes de reconnaissance d'images sur de grands ensembles d'images et leurs commentaires associés. Plus précisément, nous développons des modèles de n-grammes visuels capables de prédire des phrases arbitraires pertinentes pour le contenu d'une image. Nos modèles de n-grammes visuels sont des réseaux convolutifs à propagation avant entraînés à l'aide de nouvelles fonctions de perte inspirées des modèles de n-grammes couramment utilisés en modélisation linguistique. Nous démontrons les avantages de nos modèles dans la prédiction de phrases, la recherche d'images basée sur des phrases, la mise en relation d'images et légendes, ainsi que le transfert zéro-shot (zero-shot transfer).

Apprentissage de Visual N-Grams à partir de Données Web | Articles de recherche récents | HyperAI