HyperAIHyperAI

Command Palette

Search for a command to run...

Attribut-Surrogat-Lernen und Spektral-Token-Pooling in Transformers für Few-shot-Learning

Yangji He Weihan Liang Dongyang Zhao Hong-Yu Zhou Weifeng Ge Yizhou Yu Wenqiang Zhang

Zusammenfassung

Diese Arbeit präsentiert neue hierarchisch kaskadierte Transformatoren, die die Dateneffizienz durch Lernen von Attribut-Surrogaten und Spektral-Token-Pooling verbessern. Vision-Transformatoren gelten in letzter Zeit als vielversprechende Alternative zu konvolutionellen neuronalen Netzen für die visuelle Erkennung. Doch bei unzureichenden Datenmengen geraten sie leicht in Überanpassung und zeigen eine unterdurchschnittliche Leistung. Um die Dateneffizienz zu steigern, schlagen wir hierarchisch kaskadierte Transformatoren vor, die durch Spektral-Token-Pooling inhärente Bildstrukturen ausnutzen und die lernbaren Parameter durch latente Attribut-Surrogaten optimieren. Die inhärente Bildstruktur wird genutzt, um die Mehrdeutigkeit zwischen Vordergrundinhalten und Hintergrundrauschen durch Spektral-Token-Pooling zu reduzieren. Zudem ist das Konzept des Attribut-Surrogat-Lernens speziell darauf ausgelegt, von der reichen visuellen Information in Bild-Label-Paaren zu profitieren, anstatt lediglich auf einfache visuelle Konzepte zu basieren, die durch die Labels zugewiesen werden. Unsere hierarchisch kaskadierten Transformatoren, die HCTransformers genannt werden, bauen auf einem selbstüberwachten Lernframework (DINO) auf und wurden an mehreren gängigen Few-Shot-Lern-Benchmarks getestet.Im induktiven Setting übertrifft HCTransformers die DINO-Benchmark-Leistung um eine deutliche Lücke: +9,7 % bei der 5-Wege-1-Shot-Accuracy und +9,17 % bei der 5-Wege-5-Shot-Accuracy auf miniImageNet. Dies zeigt, dass HCTransformers äußerst effizient darin sind, diskriminative Merkmale zu extrahieren. Zudem zeigen HCTransformers klare Vorteile gegenüber aktuellen State-of-the-Art-Methoden für Few-Shot-Klassifikation sowohl im 5-Wege-1-Shot- als auch im 5-Wege-5-Shot-Setting auf vier populären Benchmark-Datensätzen: miniImageNet, tieredImageNet, FC100 und CIFAR-FS. Die trainierten Gewichte und der Quellcode sind unter https://github.com/StomachCold/HCTransformers verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp