HyperAIHyperAI
vor 17 Tagen

Speicher-effizientes Meta-Lernen mit großen Bildern

John Bronskill, Daniela Massiceti, Massimiliano Patacchiola, Katja Hofmann, Sebastian Nowozin, Richard E. Turner
Speicher-effizientes Meta-Lernen mit großen Bildern
Abstract

Meta-Lernansätze für Few-Shot-Klassifikation sind testzeitlich recheneffizient, da sie zur Erkennung einer neuen Aufgabe lediglich wenige Optimierungsschritte oder einen einzigen Vorwärtsdurchlauf erfordern, bleiben jedoch bei der Trainingsphase hochgradig speicherintensiv. Dieser Einschränkung liegt zugrunde, dass die gesamte Support-Menge einer Aufgabe – die bis zu 1000 Bilder umfassen kann – verarbeitet werden muss, bevor ein Optimierungsschritt durchgeführt werden kann. Die Nutzung der Leistungssteigerungen, die durch große Bilder erzielt werden, erfordert daher entweder eine Parallelisierung des Meta-Lerners über mehrere GPUs, was nicht immer verfügbar ist, oder Kompromisse zwischen Aufgabengröße und Bildgröße unter Berücksichtigung von Speicherbeschränkungen. Wir verbessern beide Ansätze durch die Einführung von LITE, einem allgemeinen und speichereffizienten episodischen Trainingsverfahren, das es ermöglicht, Meta-Modelle auf großen Aufgaben mit großen Bildern auf einer einzigen GPU zu trainieren. Dies erreichen wir durch die Beobachtung, dass die Gradienten einer Aufgabe als Summe der Gradienten über die Trainingsbilder der Aufgabe zerlegt werden können. Dadurch können wir einen Vorwärtsdurchlauf über die gesamte Trainingsmenge einer Aufgabe durchführen, während wir durch die Rückpropagation nur einer zufälligen Teilmenge dieser Bilder erhebliche Speichereinsparungen erzielen – wobei wir zeigen, dass dies eine verzerrungsfreie Approximation des vollständigen Gradienten darstellt. Wir verwenden LITE, um Meta-Lerntypen zu trainieren, und erreichen dabei neue SOTA-Ergebnisse auf dem realen ORBIT-Benchmark sowie auf drei von vier Teilen des anspruchsvollen VTAB+MD-Benchmarks im Vergleich zu führenden Meta-Lernverfahren. Zudem ermöglicht LITE es Meta-Lernern, mit Transfer-Learning-Ansätzen konkurrieren zu können, jedoch mit einem Bruchteil der testzeitlichen Rechenkosten – und dient damit als Gegenposition zur jüngsten These, dass Transfer Learning für Few-Shot-Klassifikation ausreicht.