HyperAIHyperAI
il y a 2 mois

Hiera : Un Transformers visuel hiérarchique sans les fioritures

Ryali, Chaitanya ; Hu, Yuan-Ting ; Bolya, Daniel ; Wei, Chen ; Fan, Haoqi ; Huang, Po-Yao ; Aggarwal, Vaibhav ; Chowdhury, Arkabandhu ; Poursaeed, Omid ; Hoffman, Judy ; Malik, Jitendra ; Li, Yanghao ; Feichtenhofer, Christoph
Hiera : Un Transformers visuel hiérarchique sans les fioritures
Résumé

Les transformateurs visuels hiérarchiques modernes ont ajouté plusieurs composants spécifiques à la vision dans le but d'améliorer les performances de classification supervisée. Bien que ces composants conduisent à des précisions efficaces et à des comptages de FLOP attractifs, la complexité supplémentaire rend en réalité ces transformateurs plus lents que leurs homologues ViT basiques. Dans cet article, nous soutenons que cette masse supplémentaire est inutile. En préformant avec une tâche visuelle prétexte robuste (MAE), nous pouvons éliminer toutes les fonctionnalités superflues d'un transformateur visuel multistage de pointe sans perdre en précision. Au cours de ce processus, nous avons créé Hiera, un transformateur visuel hiérarchique extrêmement simple qui est plus précis que les modèles précédents tout en étant considérablement plus rapide, tant lors de l'inférence que pendant l'entraînement. Nous évaluons Hiera sur une variété de tâches de reconnaissance d'images et de vidéos. Notre code et nos modèles sont disponibles à l'adresse suivante : https://github.com/facebookresearch/hiera.

Hiera : Un Transformers visuel hiérarchique sans les fioritures | Articles de recherche récents | HyperAI