HyperAIHyperAI
il y a 10 jours

Amélioration de la reconnaissance d’images par récupération à partir de données image-texte à l’échelle du web

Ahmet Iscen, Alireza Fathi, Cordelia Schmid
Amélioration de la reconnaissance d’images par récupération à partir de données image-texte à l’échelle du web
Résumé

Les modèles augmentés par récupération gagnent en popularité pour les tâches de vision par ordinateur après leurs récents succès dans les problèmes de traitement du langage naturel (NLP). L’objectif consiste à améliorer les capacités de reconnaissance du modèle en récupérant, à partir d’un ensemble mémoire externe, des exemples similaires à l’entrée visuelle. Dans ce travail, nous introduisons un module mémoire basé sur l’attention, qui apprend l’importance de chaque exemple récupéré à partir de la mémoire. Contrairement aux approches existantes, notre méthode élimine l’influence des exemples récupérés non pertinents, tout en conservant ceux qui sont bénéfiques à la requête d’entrée. Nous étudions également en profondeur diverses méthodes de construction du jeu de données mémoire. Nos expériences montrent les avantages d’utiliser un jeu de données mémoire à grande échelle comprenant 1 milliard de paires image-texte, et démontrent les performances de différentes représentations mémoire. Nous évaluons notre méthode sur trois tâches de classification distinctes : la reconnaissance à distribution longue, l’apprentissage avec des étiquettes bruitées, et la classification fine. Les résultats montrent que notre approche atteint des performances de pointe sur les jeux de données ImageNet-LT, Places-LT et Webvision.

Amélioration de la reconnaissance d’images par récupération à partir de données image-texte à l’échelle du web | Articles de recherche récents | HyperAI