HyperAIHyperAI
il y a 2 mois

Minage Difficile Global Basé sur des Proxies pour la Reconnaissance de Lieux Visuels

Ali-bey, Amar ; Chaib-draa, Brahim ; Giguère, Philippe
Minage Difficile Global Basé sur des Proxies pour la Reconnaissance de Lieux Visuels
Résumé

L'apprentissage de représentations profondes pour la reconnaissance visuelle des lieux est généralement effectué en utilisant des fonctions de perte par paires ou par triplets qui dépendent fortement de la difficulté des exemples échantillonnés à chaque itération d'entraînement. Les techniques existantes abordent ce problème en utilisant un minage hors ligne (offline hard mining) coûteux en termes de calcul et de mémoire, consistant à identifier, à chaque itération, les échantillons les plus difficiles du jeu d'entraînement. Dans cet article, nous introduisons une nouvelle technique qui réalise un échantillonnage mini-lot global basé sur des proxys. Pour ce faire, nous ajoutons une nouvelle branche entraînable bout à bout au réseau, qui génère des descripteurs de lieu efficaces (un proxy pour chaque lieu). Ces représentations par proxy sont ensuite utilisées pour construire un index global englobant les similarités entre tous les lieux du jeu de données, permettant ainsi un échantillonnage mini-lot très informatif à chaque itération d'entraînement. Notre méthode peut être combinée avec toutes les fonctions de perte par paires et par triplets existantes, avec un coût supplémentaire négligeable en termes de mémoire et de calcul. Nous menons des études ablatives approfondies et montrons que notre technique apporte de nouvelles performances record sur plusieurs benchmarks à grande échelle tels que Pittsburgh, Mapillary-SLS et SPED. En particulier, notre méthode offre plus de 100% d'amélioration relative sur le jeu de données difficile Nordland. Notre code est disponible à l'adresse https://github.com/amaralibey/GPM