Selbstüberwachte Wissensdistillation für Few-shot-Lernen

Die reale Welt enthält eine überwältigend große Anzahl an Objektklassen, weshalb das gleichzeitige Lernen aller Klassen nicht praktikabel ist. Few-Shot-Lernen stellt aufgrund seiner Fähigkeit, schnell aus verteilungsunabhängigen Daten mit nur wenigen Beispielen zu lernen, ein vielversprechendes Lernparadigma dar. Neuere Arbeiten [7, 41] zeigen, dass das bloße Lernen einer guten Merkmalsdarstellung bereits leistungsfähiger sein kann als komplexere Meta-Lern- und Metrik-Lern-Algorithmen im Few-Shot-Lernen. In diesem Paper stellen wir einen einfachen Ansatz vor, um die Repräsentationskapazität tiefer neuronaler Netze für Few-Shot-Lernaufgaben zu verbessern. Wir folgen einem zweistufigen Lernprozess: Zunächst trainieren wir ein neuronales Netzwerk, um die Entropie der Merkmalsdarstellung zu maximieren, wodurch mittels einer selbstüberwachten Hilfsverlustfunktion eine optimale Ausgabemannigfaltigkeit erzeugt wird. Im zweiten Schritt minimieren wir die Entropie der Merkmalsdarstellung, indem wir selbstüberwachte Zwillinge zusammenführen, während wir die Mannigfaltigkeit durch Student-Teacher-Distillation beschränken. Unsere Experimente zeigen, dass selbst im ersten Schritt die selbstüberwachte Lernstrategie bereits aktuelle State-of-the-Art-Methoden übertrifft, wobei zusätzliche Verbesserungen durch unseren zweiten Schritt der Distillation erzielt werden. Unser Quellcode ist verfügbar unter: https://github.com/brjathu/SKD.