Apprentissage dynamique de métriques : Vers un espace de métriques évolutif capable d'accueillir plusieurs échelles sémantiques

Cet article introduit une nouvelle caractéristique fondamentale, à savoir la plage dynamique, dans le domaine de la reconnaissance visuelle profonde à partir d’outils métriques du monde réel. En métrologie, la plage dynamique constitue une qualité fondamentale d’un outil métrique, indiquant sa capacité à s’adapter à différentes échelles. Une plage dynamique plus large implique une flexibilité accrue. En reconnaissance visuelle, le problème de l’échelle multiple existe également. Différents concepts visuels peuvent présenter des échelles sémantiques différentes. Par exemple, les concepts « Animal » et « Plante » ont une large échelle sémantique, tandis que « Élan » possède une échelle beaucoup plus petite. À une petite échelle sémantique, deux élands différents peuvent apparaître très différents l’un de l’autre. En revanche, à une grande échelle sémantique (par exemple, animaux et plantes), ces deux élands devraient être considérés comme similaires. Nous soutenons que cette flexibilité est également essentielle pour l’apprentissage métrique profond, car les différents concepts visuels correspondent effectivement à des échelles sémantiques distinctes.En intégrant la notion de plage dynamique à l’apprentissage métrique profond, nous proposons une nouvelle tâche en vision par ordinateur, à savoir l’Apprentissage Métrique Dynamique. Cette tâche vise à apprendre un espace métrique évolutif capable d’accommoder des concepts visuels à travers plusieurs échelles sémantiques. À partir de trois types d’images — véhicules, animaux et produits en ligne — nous construisons trois jeux de données dédiés à l’Apprentissage Métrique Dynamique. Nous évaluons ces jeux de données à l’aide de méthodes populaires d’apprentissage métrique profond et constatons que cette tâche s’avère particulièrement difficile. La difficulté majeure réside dans un conflit entre les différentes échelles : la capacité discriminative à petite échelle compromet souvent celle à grande échelle, et vice versa. En tant que contribution mineure, nous proposons une méthode appelée Apprentissage Croisé d’Échelle (Cross-Scale Learning, CSL), visant à atténuer ce conflit. Nous montrons que CSL améliore de manière cohérente les performances de la base sur les trois jeux de données. Les jeux de données et le code source seront rendus accessibles publiquement à l’adresse suivante : https://github.com/SupetZYK/DynamicMetricLearning.