HyperAIHyperAI
vor 17 Tagen

Deep Ensembles für Low-Data Transfer Learning

Basil Mustafa, Carlos Riquelme, Joan Puigcerver, André Susano Pinto, Daniel Keysers, Neil Houlsby
Deep Ensembles für Low-Data Transfer Learning
Abstract

Im Low-Data-Szenario ist es schwierig, gute überwachte Modelle von Grund auf zu trainieren. Stattdessen greifen Praktiker auf vortrainierte Modelle zurück und nutzen Transferlernen. Ensembles sind eine empirisch und theoretisch ansprechende Methode zur Konstruktion leistungsfähiger Vorhersagemodelle, doch der gängige Ansatz, mehrere tiefe Netzwerke mit unterschiedlichen zufälligen Initialisierungen zu trainieren, steht im Widerspruch zur Notwendigkeit des Transfers über vortrainierte Gewichte. In dieser Arbeit untersuchen wir verschiedene Ansätze zur Erstellung von Ensembles aus vortrainierten Modellen. Wir zeigen, dass die Art und Weise des Vortrainings selbst bereits eine leistungsfähige Quelle für Vielfalt darstellt, und schlagen einen praktikablen Algorithmus vor, der effizient eine Teilmenge vortrainierter Modelle für beliebige Downstream-Datensätze identifiziert. Der Ansatz ist einfach: Nutzen Sie die Genauigkeit des nächstgelegenen Nachbarn, um vortrainierte Modelle zu ranken, feintunen Sie die besten Modelle mit einem kleinen Hyperparameter-Sweep und bauen Sie ein Ensemble gierig auf, um die Validierungs-Cross-Entropy zu minimieren. Bei der Bewertung gemeinsam mit starken Baselines auf 19 unterschiedlichen Downstream-Aufgaben (dem Visual Task Adaptation Benchmark) erreicht dieser Ansatz state-of-the-art-Leistung bei deutlich geringerem Inferenzbudget – selbst wenn aus über 2.000 vortrainierten Modellen ausgewählt wird. Zudem bewerten wir unsere Ensembles auf Varianten von ImageNet und zeigen eine verbesserte Robustheit gegenüber Verteilungsverschiebungen.