HyperAIHyperAI

Command Palette

Search for a command to run...

HyperTransformer: Modellgenerierung für überwachtes und halbüberwachtes Few-Shot-Lernen

Andrey Zhmoginov Mark Sandler Max Vladymyrov

Zusammenfassung

In dieser Arbeit stellen wir einen HyperTransformer vor, ein auf Transformer basierendes Modell für überwachtes und halbüberwachtes Few-Shot-Lernen, das direkt aus Support-Beispielen die Gewichte eines convolutionalen neuronalen Netzwerks (CNN) generiert. Da die Abhängigkeit eines kleinen generierten CNN-Modells von einer spezifischen Aufgabe durch ein hochkapazitives Transformer-Modell codiert wird, entkoppeln wir effektiv die Komplexität des großen Aufgabenspaces von der Komplexität einzelner Aufgaben. Unser Ansatz ist besonders wirksam für kleine Ziel-CNN-Architekturen, bei denen die Lernung einer festen, universellen, aufgabenunabhängigen Embedding-Darstellung nicht optimal ist und bessere Ergebnisse erzielt werden, wenn die Aufgabeninformation alle Modellparameter modulieren kann. Für größere Modelle zeigen wir, dass die Generierung lediglich der letzten Schicht ausreicht, um Ergebnisse zu erzielen, die mit denen der derzeitigen State-of-the-Art-Methoden konkurrieren oder diese übertrifft, und dies unter Erhalt der end-to-end differenzierbaren Struktur.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp