HyperAIHyperAI
il y a 2 mois

DeiT-LT : La distillation revient en force pour l'entraînement des transformers visionnels sur des jeux de données à queue longue

Harsh Rangwani; Pradipto Mondal; Mayank Mishra; Ashish Ramayee Asokan; R. Venkatesh Babu
DeiT-LT : La distillation revient en force pour l'entraînement des transformers visionnels sur des jeux de données à queue longue
Résumé

Le Vision Transformer (ViT) est apparu comme une architecture prédominante pour diverses tâches en vision par ordinateur. Dans le ViT, l'image d'entrée est divisée en jetons de patch et traitée à travers une pile de blocs d'auto-attention. Cependant, contrairement aux Réseaux Neuronaux Convolutifs (CNN), l'architecture simple du ViT ne présente aucun biais inductif informatif (par exemple, la localité). En raison de cela, le ViT nécessite une grande quantité de données pour l'apprentissage préalable. Plusieurs approches efficaces en termes de données (DeiT) ont été proposées pour former le ViT sur des jeux de données équilibrés. Cependant, peu de littérature aborde l'utilisation du ViT pour des jeux de données présentant des déséquilibres à queue longue. Dans ce travail, nous introduisons DeiT-LT pour résoudre le problème de formation du ViT à partir de zéro sur des jeux de données à queue longue.Dans DeiT-LT, nous proposons un moyen efficace et performant d'extraire les connaissances d'un CNN grâce au jeton DIST d'extraction en utilisant des images hors distribution et en rééchantillonnant la perte d'extraction afin d'accroître la concentration sur les classes sous-représentées. Ceci conduit à l'apprentissage de caractéristiques locales similaires à celles du CNN dans les premiers blocs du ViT, améliorant ainsi la généralisation pour les classes sous-représentées. De plus, pour atténuer le surapprentissage, nous suggérons d'extraire les connaissances d'un enseignant CNN plat, ce qui favorise l'apprentissage de caractéristiques généralisables à faible rang pour les jetons DIST dans tous les blocs du ViT.Avec le schéma DeiT-LT proposé, le jeton DIST devient un expert pour les classes sous-représentées, tandis que le jeton CLS devient un expert pour les classes majoritaires. Ces experts permettent d'apprendre efficacement des caractéristiques correspondant aux classes majoritaires et minoritaires en utilisant un ensemble distinct de jetons au sein de la même architecture ViT. Nous démontrons l'efficacité du DeiT-LT pour former le ViT à partir de zéro sur des jeux de données allant du petit échelle CIFAR-10 LT au grand échelle iNaturalist-2018.

DeiT-LT : La distillation revient en force pour l'entraînement des transformers visionnels sur des jeux de données à queue longue | Articles de recherche récents | HyperAI