HyperAIHyperAI

Command Palette

Search for a command to run...

Informationstheoretische Darstellungsdistillation

Roy Miles Adrian Lopez Rodriguez Krystian Mikolajczyk

Zusammenfassung

Trotz des empirischen Erfolgs der Wissens-Distillation sind derzeitige state-of-the-art-Methoden rechenintensiv im Training, was ihre praktische Anwendung erschwert. Um dieses Problem zu lösen, führen wir zwei unterschiedliche, sich ergänzende Verlustfunktionen ein, die von einem kostengünstigen, entropy-ähnlichen Schätzer inspiriert sind. Diese Verlustfunktionen zielen darauf ab, die Korrelation und die wechselseitige Information zwischen den Darstellungen von Schüler und Lehrer zu maximieren. Unser Ansatz verursacht im Vergleich zu anderen Ansätzen erheblich geringere Trainingsaufwendungen und erreicht eine konkurrenzfähige Leistung auf Aufgaben der Wissens-Distillation und des cross-model Transfer. Darüber hinaus zeigen wir die Wirksamkeit unseres Verfahrens in einer binären Distillation, bei der es eine neue state-of-the-art-Leistung für binäre Quantisierung erzielt und die Leistung eines Modells mit voller Präzision annähert. Code: www.github.com/roymiles/ITRD


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp