vor 17 Tagen

HyperTransformer: Modellgenerierung für überwachtes und halbüberwachtes Few-Shot-Lernen

Andrey Zhmoginov, Mark Sandler, Max Vladymyrov

Abstract

In dieser Arbeit stellen wir einen HyperTransformer vor, ein auf Transformer basierendes Modell für überwachtes und halbüberwachtes Few-Shot-Lernen, das direkt aus Support-Beispielen die Gewichte eines convolutionalen neuronalen Netzwerks (CNN) generiert. Da die Abhängigkeit eines kleinen generierten CNN-Modells von einer spezifischen Aufgabe durch ein hochkapazitives Transformer-Modell codiert wird, entkoppeln wir effektiv die Komplexität des großen Aufgabenspaces von der Komplexität einzelner Aufgaben. Unser Ansatz ist besonders wirksam für kleine Ziel-CNN-Architekturen, bei denen die Lernung einer festen, universellen, aufgabenunabhängigen Embedding-Darstellung nicht optimal ist und bessere Ergebnisse erzielt werden, wenn die Aufgabeninformation alle Modellparameter modulieren kann. Für größere Modelle zeigen wir, dass die Generierung lediglich der letzten Schicht ausreicht, um Ergebnisse zu erzielen, die mit denen der derzeitigen State-of-the-Art-Methoden konkurrieren oder diese übertrifft, und dies unter Erhalt der end-to-end differenzierbaren Struktur.