HyperAIHyperAI
il y a 2 mois

Rechercher le Diable dans les Détails : Apprentissage d'un Réseau d'Échantillonnage d'Attention Trilinéaire pour la Reconnaissance d'Images Fine-grainée

Heliang Zheng; Jianlong Fu; Zheng-Jun Zha; Jiebo Luo
Rechercher le Diable dans les Détails : Apprentissage d'un Réseau d'Échantillonnage d'Attention Trilinéaire pour la Reconnaissance d'Images Fine-grainée
Résumé

L'apprentissage de caractéristiques subtiles mais discriminantes (par exemple, le bec et les yeux d'un oiseau) joue un rôle significatif dans la reconnaissance d'images à grain fin. Les approches existantes basées sur l'attention localisent et amplifient les parties importantes pour apprendre des détails à grain fin, mais elles souffrent souvent d'un nombre limité de parties et d'un coût computationnel élevé. Dans cet article, nous proposons d'apprendre ces caractéristiques à grain fin à partir de centaines de propositions de parties par le réseau d'échantillonnage d'attention trilinéaire (TASN) de manière efficace selon un modèle maître-élève. Plus précisément, TASN comprend : 1) un module d'attention trilinéaire qui génère des cartes d'attention en modélisant les relations inter-canales ; 2) un échantillonneur basé sur l'attention qui met en évidence les parties attendues avec une haute résolution ; et 3) un distilleur de caractéristiques qui distille les caractéristiques des parties en une caractéristique globale grâce à des stratégies de partage de poids et de préservation des caractéristiques. De nombreuses expériences montrent que TASN offre les meilleures performances sous les mêmes conditions que les approches les plus compétitives, notamment sur les jeux de données iNaturalist-2017, CUB-Bird et Stanford-Cars.

Rechercher le Diable dans les Détails : Apprentissage d'un Réseau d'Échantillonnage d'Attention Trilinéaire pour la Reconnaissance d'Images Fine-grainée | Articles de recherche récents | HyperAI