Command Palette
Search for a command to run...
Descripteurs de parties déformables pour la reconnaissance fine et la prédiction d’attributs
Descripteurs de parties déformables pour la reconnaissance fine et la prédiction d’attributs
Trevor Darrell Forrest Iandola Ryan Farrell Ning Zhang
Résumé
La reconnaissance d’objets dans des domaines à granularité fine peut être extrêmement difficile en raison des différences subtiles entre les sous-catégories. Les marques discriminantes sont souvent très localisées, ce qui pousse les approches traditionnelles de reconnaissance d’objets à peiner face aux grandes variations d’orientation souvent présentes dans ces domaines. La normalisation de pose vise à aligner les exemples d’apprentissage, soit par morceaux (par partie), soit globalement pour l’objet entier, en éliminant efficacement les différences liées à la pose et à l’angle de vue. Les approches antérieures reposaient sur des ensembles de filtres coûteux en calcul pour la localisation des parties et nécessitaient une supervision étendue. Ce papier propose deux descripteurs normalisés selon la pose, fondés sur des modèles de parties déformables à faible coût computationnel. Le premier exploite les sémantiques inhérentes aux parties des modèles de parties déformables fortement supervisés. Le second tire parti d’annotations sémantiques faibles pour apprendre des correspondances entre composants, en calculant des descripteurs normalisés selon la pose à partir des parties latentes d’un modèle de parties déformables faiblement supervisé. Ces représentations permettent un regroupement (pooling) à travers les variations de pose et d’angle de vue, facilitant ainsi des tâches telles que la reconnaissance à granularité fine et la prédiction d’attributs. Des expériences menées sur les jeux de données Caltech-UCSD Birds 200 et Berkeley Human Attribute démontrent des améliorations significatives par rapport aux algorithmes de pointe.