HyperAIHyperAI
il y a 2 mois

Aligné à l'Objet, pas à l'Image : Une Représentation Unifiée Alignée aux Poses pour la Reconnaissance Fine-grained

Pei Guo; Ryan Farrell
Aligné à l'Objet, pas à l'Image : Une Représentation Unifiée Alignée aux Poses pour la Reconnaissance Fine-grained
Résumé

Les variations dramatiques d'apparence dues à la posture constituent un défi majeur dans la reconnaissance fine-grainée, un défi que les méthodes récentes utilisant des mécanismes d'attention ou des statistiques du second ordre échouent à résoudre de manière adéquate. Les CNN modernes manquent généralement d'une compréhension explicite de la posture des objets et sont au contraire perturbés par l'entrelacement de la posture et de l'apparence. Dans cet article, nous proposons une représentation unifiée des objets construite à partir d'une hiérarchie de régions alignées sur la posture. Au lieu de représenter un objet par des régions alignées sur les axes de l'image, la représentation proposée caractérise l'apparence par rapport à la posture de l'objet en utilisant des patchs alignés sur la posture dont les caractéristiques sont robustes aux variations de posture, d'échelle et de rotation. Nous proposons un algorithme qui effectue l'estimation de la posture et forme la représentation unifiée de l'objet comme la concaténation des caractéristiques de régions hiérarchiques alignées sur la posture, avant de le faire passer dans un réseau de classification. L'algorithme proposé dépasse les performances des autres approches, améliorant l'état de l'art d'environ 2% sur le jeu de données largement utilisé CUB-200 et plus de 8% sur le jeu de données beaucoup plus vaste NABirds. L'efficacité relative de ce paradigme par rapport aux méthodes concurrentes souligne l'importance cruciale de dissocier la posture et l'apparence pour poursuivre les progrès en reconnaissance fine-grainée.