HyperAIHyperAI
vor 2 Monaten

DeiT-LT Destillation kehrt zurück für die Vision Transformer-Training auf langschwänzigen Datensätzen

Harsh Rangwani; Pradipto Mondal; Mayank Mishra; Ashish Ramayee Asokan; R. Venkatesh Babu
DeiT-LT Destillation kehrt zurück für die Vision Transformer-Training auf langschwänzigen Datensätzen
Abstract

Der Vision Transformer (ViT) ist als eine bedeutende Architektur für verschiedene Aufgaben im Bereich der Computer Vision hervorgetreten. Im ViT wird das Eingabebild in Patch-Token unterteilt und diese durch eine Stapel von Selbst-Aufmerksamkeitsblöcken verarbeitet. Im Gegensatz zu Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs) hat die einfache Architektur des ViT jedoch keinen informativen induktiven Bias (z.B. Lokalität). Aufgrund dessen benötigt der ViT eine große Menge an Daten für das Pre-Training. Verschiedene daten-effiziente Ansätze (Data-efficient Image Transformers, DeiT) wurden vorgeschlagen, um den ViT effektiv auf ausgewogenen Datensätzen zu trainieren. Allerdings gibt es wenig Literatur, die sich mit der Anwendung des ViT auf Datensätze mit langschwänzigen Ungleichverteilungen beschäftigt. In dieser Arbeit stellen wir DeiT-LT vor, um das Problem des Trainings von ViTs von Grund auf auf langschwänzigen Datensätzen anzugehen.In DeiT-LT führen wir einen effizienten und effektiven Distillationsprozess von CNNs ein, indem wir ein Distillations-DIST-Token verwenden und außerhalb der Verteilung liegende Bilder sowie die Neubewertung des Distillationsverlustes zur Stärkung des Fokus auf Schwanzklassen einsetzen. Dies führt zum Lernen lokaler, cnn-ähnlicher Merkmale in den frühen Blöcken des ViTs und verbessert die Generalisierungsfähigkeit für Schwanzklassen. Um Überanpassung zu reduzieren, schlagen wir vor, von einem flachen CNN-Lehrer zu destillieren, was wiederum zum Lernen niedrig-rangiger generalisierbarer Merkmale für DIST-Tokens in allen ViT-Blöcken führt. Mit dem vorgeschlagenen DeiT-LT-Schema wird das Distillations-DIST-Token ein Experte für die Schwanzklassen und das Klassifikations-CLS-Token ein Experte für die Kopfklasse. Die Experten ermöglichen es, Merkmale sowohl der Mehrheits- als auch der Minderheitsklassen effektiv zu lernen, indem sie innerhalb derselben ViT-Architektur unterschiedliche Token-Sätze nutzen.Wir zeigen die Effektivität von DeiT-LT beim Training von ViTs von Grund auf auf Datensätzen, die vom kleineren CIFAR-10 LT bis hin zum größeren iNaturalist-2018 reichen.