vor 3 Monaten

Beyond Reptile: Meta-gelerntes Maximieren des Skalarprodukts zwischen Gradienten zur Verbesserung der Einzelaufgaben-Regularisierung

{WonHo Ryu, Sai Chetan Chinthakindi, Akhil Kedia}

Abstract

Meta-Lernalgorithmen wie MAML, Reptile und FOMAML haben die Leistung mehrerer neuronaler Modelle verbessert. Der zentrale Unterschied zwischen dem herkömmlichen Gradientenabstieg und diesen Meta-Lernansätzen liegt darin, dass sie eine kleine Komponente enthalten, die den Gradienten zur Maximierung des Skalarprodukts zwischen den Gradienten von Batchs berechnet, wodurch die Generalisierungsfähigkeit verbessert wird. Frühere Arbeiten haben gezeigt, dass ausgerichtete Gradienten mit der Generalisierungsfähigkeit korrelieren und haben den Reptile-Algorithmus in einer Einzel-Aufgaben-Situation eingesetzt, um die Generalisierung zu verbessern. Inspiriert durch diese Ansätze im Einzel-Aufgaben-Szenario schlägt dieser Artikel vor, den Finite-Differenzen-First-Order-Algorithmus zur Berechnung dieses Gradienten aus dem Skalarprodukt der Gradienten zu verwenden, wodurch eine explizite Kontrolle über die Gewichtung dieser Komponente gegenüber den herkömmlichen Gradienten möglich wird. Wir nutzen diesen Gradienten als Regularisierungstechnik, was zu einer stärkeren Ausrichtung der Gradienten zwischen verschiedenen Batches führt. Durch die Verwendung der Finite-Differenzen-Näherung leidet unser Ansatz nicht unter dem O(n²)-Speicherbedarf einer naiven Berechnung der Hessematrix und kann problemlos auf große Modelle mit großen Batch-Größen angewendet werden. Unser Ansatz erreicht state-of-the-art-Leistung auf dem Gigaword-Datensatz und zeigt Verbesserungen auf mehreren Datensätzen wie SQuAD-v2.0, Quasar-T, NewsQA sowie allen SuperGLUE-Datensätzen, wobei verschiedene Modelle wie BERT, RoBERTa und ELECTRA verwendet werden. Unser Verfahren übertrifft sowohl in Einzel- als auch in Mehr-Aufgaben-Szenarien frühere Ansätze wie Reptile und FOMAML, wenn diese als Regularisierungstechnik eingesetzt werden. Unser Ansatz ist modellunabhängig und führt keine zusätzlichen trainierbaren Gewichte ein.