vor 4 Monaten

Die Kraft des Meta-Tunings für die Few-Shot-Verallgemeinerung durch spärliche interpolierte Experten freisetzen

Chen, Shengzhuang ; Tack, Jihoon ; Yang, Yunqiao ; Teh, Yee Whye ; Schwarz, Jonathan Richard ; Wei, Ying

Abstract

Kürzliche Erfolge deuten darauf hin, dass parameter-effizientes Feinjustieren von Grundmodellen die derzeitige Standardmethode für Transferlearning in der Bildverarbeitung darstellt und die umfangreiche Literatur zu Alternativen wie dem Meta-Lernen ablöst. Bei dem Versuch, das Beste aus beiden Welten zu kombinieren, führt Meta-Tuning eine nachfolgende Optimierungsphase für Grundmodelle ein, hat jedoch bisher nur begrenzten Erfolg gezeigt und neigt insbesondere dazu, bei außerhalb der Verteilung liegenden (OOD) Aufgaben schlechter abzuschneiden. In dieser Arbeit stellen wir Sparse MetA-Tuning (SMAT) vor, eine Methode, die sich an dünn besetzten Misch-Experten-Ansätzen orientiert und trainiert wird, um automatisch Teilmenge der vorgefertigten Parameter für das Meta-Tuning auf jede Aufgabe zu isolieren. SMAT überwindet erfolgreich die OOD-Sensitivität und erfüllt die Erwartungen, die Fähigkeiten des Transfers von Vision-Grundmodellen über parameter-effizientes Feinjustieren hinaus zu verbessern. Wir erzielen neue Standesmethoden-Ergebnisse bei einer anspruchsvollen Kombination des Meta-Datasets mit zusätzlichen OOD-Aufgaben sowohl im zero-shot- als auch im gradientbasierten Anpassungsszenario. Zudem liefern wir eine gründliche Analyse der Überlegenheit gelernter gegenüber manuell entworfener Dünnbesetztheitsmuster für dünn besetzte Expertenmethoden sowie der entscheidenden Bedeutung des Dünnbesetztheitsgrades beim Ausgleich zwischen innerhalb der Verteilung liegender und außerhalb der Verteilung liegender Generalisierung. Unser Code ist öffentlich verfügbar.