Informationstheoretische Darstellungsdistillation

Trotz des empirischen Erfolgs der Wissens-Distillation sind derzeitige state-of-the-art-Methoden rechenintensiv im Training, was ihre praktische Anwendung erschwert. Um dieses Problem zu lösen, führen wir zwei unterschiedliche, sich ergänzende Verlustfunktionen ein, die von einem kostengünstigen, entropy-ähnlichen Schätzer inspiriert sind. Diese Verlustfunktionen zielen darauf ab, die Korrelation und die wechselseitige Information zwischen den Darstellungen von Schüler und Lehrer zu maximieren. Unser Ansatz verursacht im Vergleich zu anderen Ansätzen erheblich geringere Trainingsaufwendungen und erreicht eine konkurrenzfähige Leistung auf Aufgaben der Wissens-Distillation und des cross-model Transfer. Darüber hinaus zeigen wir die Wirksamkeit unseres Verfahrens in einer binären Distillation, bei der es eine neue state-of-the-art-Leistung für binäre Quantisierung erzielt und die Leistung eines Modells mit voller Präzision annähert. Code: www.github.com/roymiles/ITRD