Récupération multimodale avec normalisation du Querybank

Grâce aux grands jeux de données d’entraînement, aux progrès dans la conception d’architectures neuronales et à l’inférence efficace, les embeddings conjoints sont devenus l’approche dominante pour traiter la récupération multimodale. Dans ce travail, nous montrons d’abord que, malgré leur efficacité, les embeddings conjoints d’avant-garde souffrent fortement du problème ancien dit « du hub », selon lequel un petit nombre d’embeddings de galerie deviennent les voisins les plus proches de nombreuses requêtes. Inspirés par la littérature en traitement du langage naturel, nous proposons un cadre simple mais efficace, appelé Normalisation Querybank (QB-Norm), qui ré-normalise les similarités des requêtes afin de tenir compte des hubs présents dans l’espace d’embeddings. QB-Norm améliore les performances de récupération sans nécessiter de réentraînement. Contrairement aux travaux antérieurs, nous démontrons que QB-Norm fonctionne efficacement même en l’absence d’accès simultané aux requêtes du jeu de test. Dans le cadre de QB-Norm, nous introduisons également une nouvelle méthode de normalisation de similarité, appelée Softmax Inversé Dynamique, qui s’avère nettement plus robuste que les approches existantes. Nous illustrons les bienfaits de QB-Norm sur une variété de modèles et de benchmarks de récupération multimodale, où il améliore de manière cohérente des modèles de pointe, dépassant ainsi l’état de l’art. Le code est disponible à l’adresse suivante : https://vladbogo.github.io/QB-Norm/.