Command Palette
Search for a command to run...
HyperTransformer: Modellgenerierung für überwachtes und halbüberwachtes Few-Shot-Lernen
HyperTransformer: Modellgenerierung für überwachtes und halbüberwachtes Few-Shot-Lernen
Andrey Zhmoginov Mark Sandler Max Vladymyrov
Zusammenfassung
In dieser Arbeit stellen wir einen HyperTransformer vor, ein auf Transformer basierendes Modell für überwachtes und halbüberwachtes Few-Shot-Lernen, das direkt aus Support-Beispielen die Gewichte eines convolutionalen neuronalen Netzwerks (CNN) generiert. Da die Abhängigkeit eines kleinen generierten CNN-Modells von einer spezifischen Aufgabe durch ein hochkapazitives Transformer-Modell codiert wird, entkoppeln wir effektiv die Komplexität des großen Aufgabenspaces von der Komplexität einzelner Aufgaben. Unser Ansatz ist besonders wirksam für kleine Ziel-CNN-Architekturen, bei denen die Lernung einer festen, universellen, aufgabenunabhängigen Embedding-Darstellung nicht optimal ist und bessere Ergebnisse erzielt werden, wenn die Aufgabeninformation alle Modellparameter modulieren kann. Für größere Modelle zeigen wir, dass die Generierung lediglich der letzten Schicht ausreicht, um Ergebnisse zu erzielen, die mit denen der derzeitigen State-of-the-Art-Methoden konkurrieren oder diese übertrifft, und dies unter Erhalt der end-to-end differenzierbaren Struktur.