HyperAIHyperAI

Command Palette

Search for a command to run...

Mémoire épisodique gonflée avec une attention auto-épisode pour la reconnaissance visuelle à queue longue

Yi Yang Linchao Zhu

Résumé

L’intérêt croissant porté à la modélisation des données à queue longue s’explique par le fait que, contrairement aux jeux de données artificiellement collectés, ces données existent naturellement dans le monde réel, ce qui les rend plus représentatives de la réalité. Pour traiter le problème d’imbalanced class, nous proposons une Mémoire épisodique Inflée (Inflated Episodic Memory, IEM) destinée à la reconnaissance visuelle à queue longue. Premièrement, notre IEM enrichit les réseaux de neurones convolutifs en intégrant des caractéristiques représentatives catégorielles, permettant ainsi un apprentissage rapide des classes rares (tail classes). Dans les approches classiques d’apprentissage peu supervisé (few-shot learning), une seule prototypique est généralement utilisée pour représenter une catégorie. Toutefois, les données à queue longue présentent une variance intra-catégorielle plus élevée, ce qui rend difficile l’apprentissage d’un unique prototype pour une même catégorie. Ainsi, nous introduisons l’IEM afin de stocker individuellement les caractéristiques les plus discriminantes pour chaque catégorie. De plus, les banques de mémoire sont mises à jour de manière indépendante, ce qui réduit davantage la probabilité d’apprentissage de classifieurs biaisés. Deuxièmement, nous proposons un nouveau mécanisme d’attention régionale auto-attention pour le codage des cartes de caractéristiques spatiales multi-échelles. Ce mécanisme permet d’intégrer davantage de caractéristiques discriminantes, améliorant ainsi la généralisation sur les classes rares. Nous proposons de coder les cartes de caractéristiques locales à plusieurs échelles tout en agrégeant simultanément les informations contextuelles spatiales. Grâce à l’IEM et à l’attention régionale, nous atteignons des performances de pointe sur quatre benchmarks standards de reconnaissance d’images à queue longue. En outre, nous validons l’efficacité de l’IEM sur un benchmark de reconnaissance vidéo à queue longue, à savoir YouTube-8M.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp