HyperAIHyperAI
vor 17 Tagen

Attribut-Surrogat-Lernen und Spektral-Token-Pooling in Transformers für Few-shot-Learning

Yangji He, Weihan Liang, Dongyang Zhao, Hong-Yu Zhou, Weifeng Ge, Yizhou Yu, Wenqiang Zhang
Attribut-Surrogat-Lernen und Spektral-Token-Pooling in Transformers für Few-shot-Learning
Abstract

Diese Arbeit präsentiert neue hierarchisch kaskadierte Transformatoren, die die Dateneffizienz durch Lernen von Attribut-Surrogaten und Spektral-Token-Pooling verbessern. Vision-Transformatoren gelten in letzter Zeit als vielversprechende Alternative zu konvolutionellen neuronalen Netzen für die visuelle Erkennung. Doch bei unzureichenden Datenmengen geraten sie leicht in Überanpassung und zeigen eine unterdurchschnittliche Leistung. Um die Dateneffizienz zu steigern, schlagen wir hierarchisch kaskadierte Transformatoren vor, die durch Spektral-Token-Pooling inhärente Bildstrukturen ausnutzen und die lernbaren Parameter durch latente Attribut-Surrogaten optimieren. Die inhärente Bildstruktur wird genutzt, um die Mehrdeutigkeit zwischen Vordergrundinhalten und Hintergrundrauschen durch Spektral-Token-Pooling zu reduzieren. Zudem ist das Konzept des Attribut-Surrogat-Lernens speziell darauf ausgelegt, von der reichen visuellen Information in Bild-Label-Paaren zu profitieren, anstatt lediglich auf einfache visuelle Konzepte zu basieren, die durch die Labels zugewiesen werden. Unsere hierarchisch kaskadierten Transformatoren, die HCTransformers genannt werden, bauen auf einem selbstüberwachten Lernframework (DINO) auf und wurden an mehreren gängigen Few-Shot-Lern-Benchmarks getestet.Im induktiven Setting übertrifft HCTransformers die DINO-Benchmark-Leistung um eine deutliche Lücke: +9,7 % bei der 5-Wege-1-Shot-Accuracy und +9,17 % bei der 5-Wege-5-Shot-Accuracy auf miniImageNet. Dies zeigt, dass HCTransformers äußerst effizient darin sind, diskriminative Merkmale zu extrahieren. Zudem zeigen HCTransformers klare Vorteile gegenüber aktuellen State-of-the-Art-Methoden für Few-Shot-Klassifikation sowohl im 5-Wege-1-Shot- als auch im 5-Wege-5-Shot-Setting auf vier populären Benchmark-Datensätzen: miniImageNet, tieredImageNet, FC100 und CIFAR-FS. Die trainierten Gewichte und der Quellcode sind unter https://github.com/StomachCold/HCTransformers verfügbar.