Classification augmentée par récupération pour la reconnaissance visuelle à queue longue

Nous introduisons Retrieval Augmented Classification (RAC), une approche générique visant à enrichir les pipelines standard de classification d’images par l’ajout d’un module de récupération explicite. RAC se compose d’un encodeur d’image de base standard fusionné avec une branche parallèle de récupération qui interroge une mémoire externe non paramétrique constituée d’images pré-encodées et de fragments de texte associés. Nous appliquons RAC au problème de la classification à longue queue (long-tail classification) et démontrons une amélioration significative par rapport aux états de l’art précédents sur les jeux de données Places365-LT et iNaturalist-2018 (respectivement +14,5 % et +6,7 %), malgré l’utilisation exclusive des jeux de données d’entraînement comme source d’information externe. Nous montrons que le module de récupération de RAC, sans nécessiter de stimulation explicite (prompting), parvient à apprendre un niveau élevé de précision sur les classes rares (tail classes). Cela permet à son tour à l’encodeur de base de se concentrer davantage sur les classes fréquentes, améliorant ainsi sa performance sur celles-ci. RAC représente une alternative à l’utilisation de grands modèles pré-entraînés sans nécessiter de fine-tuning, tout en constituant une première étape vers une utilisation plus efficace de la mémoire externe dans les architectures courantes de vision par ordinateur.