Es liegt alles im Kopf: Repräsentationswissensdistillation durch Klassifikatorfreigabe

Die Darstellungskomprimierung (Representation Knowledge Distillation) zielt darauf ab, reichhaltige Informationen von einem Modell auf ein anderes zu übertragen. Übliche Ansätze zur Darstellungskomprimierung konzentrieren sich hauptsächlich auf die direkte Minimierung von Abstandsmaßen zwischen den Embedding-Vektoren der Modelle. Solche direkten Methoden können jedoch eingeschränkt sein, was die Übertragung hochordneter Abhängigkeiten betrifft, die in den Darstellungsvectoren enthalten sind, oder die Behandlung der Kapazitätslücke zwischen Lehr- und Schülermodell. Zudem wird im klassischen Wissensdistillation-Verfahren der Lehrer ohne Berücksichtigung der Eigenschaften und Kapazität des Schülers trainiert. In diesem Artikel untersuchen wir zwei Mechanismen zur Verbesserung der Darstellungskomprimierung durch Klassifikator-Teilung zwischen Lehrer und Schüler. Zunächst betrachten wir ein einfaches Verfahren, bei dem der Klassifikator des Lehrers an den Backbone des Schülers angekoppelt wird und somit als zusätzlicher Klassifikationskopf fungiert. Anschließend schlagen wir einen studentenbewussten Mechanismus vor, der den Lehrer daraufhin anpasst, dass er ein Schülermodell mit begrenzter Kapazität unterstützt, indem der Lehrer gemeinsam mit einem temporären Klassifikationskopf des Schülers trainiert wird. Wir analysieren und vergleichen diese beiden Mechanismen und zeigen ihre Wirksamkeit an verschiedenen Datensätzen und Aufgaben, darunter Bildklassifikation, feinkörnige Klassifikation und Gesichtsverifikation. Insbesondere erzielen wir state-of-the-art Ergebnisse für die Gesichtsverifikation auf dem IJB-C-Datensatz mit einem MobileFaceNet-Modell: TAR@(FAR=1e-5)=93,7 %. Der Quellcode ist unter https://github.com/Alibaba-MIIL/HeadSharingKD verfügbar.