Une base simple pour la reconnaissance à queue longue via un modèle vision-langage

Le monde visuel présente naturellement une distribution à queue longue pour les classes ouvertes, ce qui pose de grands défis aux systèmes visuels modernes. Les approches existantes adoptent soit des stratégies de rééquilibrage des classes, soit une amélioration directe des modules du réseau pour résoudre ce problème. Toutefois, elles continuent d’entraîner des modèles à partir d’un ensemble fini d’étiquettes prédéfinies, ce qui limite l’information de supervision et restreint leur transférabilité à des instances nouvelles. Les avancées récentes dans le préentraînement contrastif à grande échelle sur des données visuelles et linguistiques ouvrent une nouvelle voie pour la reconnaissance visuelle. Grâce à une supervision à vocabulaire ouvert, les modèles préentraînés en vision-langage contrastifs apprennent des représentations multimodales puissantes, prometteuses pour faire face à l’insuffisance de données et aux concepts inédits. En calculant la similarité sémantique entre les entrées visuelles et textuelles, la reconnaissance visuelle est transformée en un problème d’appariement vision-langage. Inspirés par cette idée, nous proposons BALLAD, une méthode exploitant les modèles contrastifs vision-langage pour la reconnaissance à distribution à queue longue. Nous commençons par poursuivre le préentraînement du noyau vision-langage sur un jeu de données cible à queue longue spécifique, via un apprentissage contrastif. Ensuite, nous gelons le noyau et ajoutons une couche adaptatrice supplémentaire pour renforcer les représentations des classes rares, à partir d’échantillons d’entraînement équilibrés générés par des stratégies de rééchantillonnage. Des expériences étendues ont été menées sur trois benchmarks populaires pour la reconnaissance à queue longue. Résultat : notre approche simple et efficace établit de nouvelles performances état-de-l’art, surpassant largement les méthodes concurrentes. Le code source est disponible à l’adresse suivante : https://github.com/gaopengcuhk/BALLAD.