Ensemble basé sur l'attention pour l'apprentissage profond de métriques

L'apprentissage métrique profond vise à apprendre une fonction d'incrustation modélisée sous forme de réseau neuronal profond. Cette fonction d'incrustation place généralement des images sémantiquement similaires proches les unes des autres, tandis que des images dissimilaires sont éloignées dans l'espace d'incrustation appris. Récemment, l'approche par ensembles a été appliquée à l'apprentissage métrique profond pour obtenir des résultats de pointe. En tant qu'aspect important de l'approche par ensembles, les apprenants doivent être diversifiés dans leurs incrustations de caractéristiques. À cet effet, nous proposons un ensemble basé sur l'attention, qui utilise plusieurs masques d'attention, afin que chaque apprenant puisse se concentrer sur différentes parties de l'objet. Nous proposons également une perte de divergence, qui encourage la diversité parmi les apprenants. La méthode proposée est appliquée aux benchmarks standards de l'apprentissage métrique profond et les résultats expérimentaux montrent qu'elle surpassent significativement les méthodes de pointe actuelles dans les tâches de recherche d'images.