HyperAIHyperAI
il y a 10 jours

Classification augmentée par récupération pour la reconnaissance visuelle à queue longue

Alexander Long, Wei Yin, Thalaiyasingam Ajanthan, Vu Nguyen, Pulak Purkait, Ravi Garg, Alan Blair, Chunhua Shen, Anton van den Hengel
Classification augmentée par récupération pour la reconnaissance visuelle à queue longue
Résumé

Nous introduisons Retrieval Augmented Classification (RAC), une approche générique visant à enrichir les pipelines standard de classification d’images par l’ajout d’un module de récupération explicite. RAC se compose d’un encodeur d’image de base standard fusionné avec une branche parallèle de récupération qui interroge une mémoire externe non paramétrique constituée d’images pré-encodées et de fragments de texte associés. Nous appliquons RAC au problème de la classification à longue queue (long-tail classification) et démontrons une amélioration significative par rapport aux états de l’art précédents sur les jeux de données Places365-LT et iNaturalist-2018 (respectivement +14,5 % et +6,7 %), malgré l’utilisation exclusive des jeux de données d’entraînement comme source d’information externe. Nous montrons que le module de récupération de RAC, sans nécessiter de stimulation explicite (prompting), parvient à apprendre un niveau élevé de précision sur les classes rares (tail classes). Cela permet à son tour à l’encodeur de base de se concentrer davantage sur les classes fréquentes, améliorant ainsi sa performance sur celles-ci. RAC représente une alternative à l’utilisation de grands modèles pré-entraînés sans nécessiter de fine-tuning, tout en constituant une première étape vers une utilisation plus efficace de la mémoire externe dans les architectures courantes de vision par ordinateur.

Classification augmentée par récupération pour la reconnaissance visuelle à queue longue | Articles de recherche récents | HyperAI