HyperAIHyperAI
il y a 10 jours

Mémoire épisodique gonflée avec une attention auto-épisode pour la reconnaissance visuelle à queue longue

{ Yi Yang, Linchao Zhu}
Mémoire épisodique gonflée avec une attention auto-épisode pour la reconnaissance visuelle à queue longue
Résumé

L’intérêt croissant porté à la modélisation des données à queue longue s’explique par le fait que, contrairement aux jeux de données artificiellement collectés, ces données existent naturellement dans le monde réel, ce qui les rend plus représentatives de la réalité. Pour traiter le problème d’imbalanced class, nous proposons une Mémoire épisodique Inflée (Inflated Episodic Memory, IEM) destinée à la reconnaissance visuelle à queue longue. Premièrement, notre IEM enrichit les réseaux de neurones convolutifs en intégrant des caractéristiques représentatives catégorielles, permettant ainsi un apprentissage rapide des classes rares (tail classes). Dans les approches classiques d’apprentissage peu supervisé (few-shot learning), une seule prototypique est généralement utilisée pour représenter une catégorie. Toutefois, les données à queue longue présentent une variance intra-catégorielle plus élevée, ce qui rend difficile l’apprentissage d’un unique prototype pour une même catégorie. Ainsi, nous introduisons l’IEM afin de stocker individuellement les caractéristiques les plus discriminantes pour chaque catégorie. De plus, les banques de mémoire sont mises à jour de manière indépendante, ce qui réduit davantage la probabilité d’apprentissage de classifieurs biaisés. Deuxièmement, nous proposons un nouveau mécanisme d’attention régionale auto-attention pour le codage des cartes de caractéristiques spatiales multi-échelles. Ce mécanisme permet d’intégrer davantage de caractéristiques discriminantes, améliorant ainsi la généralisation sur les classes rares. Nous proposons de coder les cartes de caractéristiques locales à plusieurs échelles tout en agrégeant simultanément les informations contextuelles spatiales. Grâce à l’IEM et à l’attention régionale, nous atteignons des performances de pointe sur quatre benchmarks standards de reconnaissance d’images à queue longue. En outre, nous validons l’efficacité de l’IEM sur un benchmark de reconnaissance vidéo à queue longue, à savoir YouTube-8M.

Mémoire épisodique gonflée avec une attention auto-épisode pour la reconnaissance visuelle à queue longue | Articles de recherche récents | HyperAI