HyperAIHyperAI
vor 17 Tagen

Meta-Lernen ohne Memorisierung

Mingzhang Yin, George Tucker, Mingyuan Zhou, Sergey Levine, Chelsea Finn
Meta-Lernen ohne Memorisierung
Abstract

Die Fähigkeit, neue Konzepte mit geringen Datenmengen zu erlernen, ist ein entscheidender Aspekt von Intelligenz, der für tiefe Lernmethoden als herausfordernd erwiesen hat. Meta-Lernen ist als vielversprechende Technik hervorgegangen, um Daten aus vorherigen Aufgaben zu nutzen, um die effiziente Lernung neuer Aufgaben zu ermöglichen. Allerdings erfordern die meisten Meta-Lernalgorithmen implizit, dass die Meta-Trainingsaufgaben wechselseitig ausschließend sind, sodass kein einzelnes Modell alle Aufgaben gleichzeitig lösen kann. Beispielsweise ordnen frühere Arbeiten bei der Erstellung von Aufgaben für Few-Shot-Bildklassifikation die Bildklassen per Aufgabe zufällig den N-Wege-Klassifikationslabels zu. Wird dies nicht durchgeführt, kann der Meta-Lerner die Trainingsdaten der Aufgabe ignorieren und stattdessen ein einziges Modell lernen, das alle Meta-Trainingsaufgaben ohne Vorwissen (zero-shot) bewältigt, jedoch nicht effektiv auf neue Bildklassen anpasst. Diese Anforderung bedeutet, dass der Nutzer große Sorgfalt bei der Aufgabendesignierung walten lassen muss, beispielsweise durch das Mischen von Labels oder das Entfernen von aufgabenidentifizierenden Informationen aus den Eingaben. In einigen Domänen macht dies Meta-Lernen vollständig unanwendbar. In diesem Paper lösen wir diese Herausforderung, indem wir ein Meta-Regularisierungsziel unter Verwendung der Informationstheorie entwerfen, das der datengetriebenen Anpassung Vorrang einräumt. Dadurch entscheidet der Meta-Lerner, was aus den Trainingsdaten der Aufgabe gelernt werden muss und was aus dem Testeingabedatum der Aufgabe abgeleitet werden sollte. Auf diese Weise kann unser Algorithmus Daten aus nicht-wechselseitig ausschließenden Aufgaben effizient nutzen, um sich an neue Aufgaben anzupassen. Wir demonstrieren die Anwendbarkeit unseres Ansatzes sowohl für kontextbasierte als auch für gradientenbasierte Meta-Lernalgorithmen und wenden ihn in praktischen Anwendungsszenarien an, in denen die Anwendung herkömmlicher Meta-Lernmethoden bisher schwierig war. Unser Ansatz übertrifft in diesen Szenarien deutlich die Leistung herkömmlicher Meta-Lernalgorithmen.