HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-View Attention Transfer für effiziente Sprachverbesserung

Wooseok Shin Hyun Joon Park Jin Sob Kim Byung Hoon Lee Sung Won Han

Zusammenfassung

Neuere Deep-Learning-Modelle haben hohe Leistung in der Spracherkennung erzielt; dennoch bleibt die Entwicklung schneller und recheneffizienter Modelle ohne signifikante Leistungsabnahme herausfordernd. Frühere Studien zur Wissens-Distillation in der Sprachverbesserung konnten dieses Problem nicht lösen, da ihre Ausgabedistillationsansätze in gewissen Aspekten nicht gut auf die Aufgabe der Sprachverbesserung abgestimmt sind. In dieser Studie stellen wir Multi-View-Attention-Transfer (MV-AT), eine featurebasierte Distillation, vor, um effiziente Sprachverbesserungsmodelle im Zeitbereich zu erzielen. Aufbauend auf einem Modell zur Extraktion mehrerer Ansichtsmerkmale überträgt MV-AT Wissen aus mehreren Perspektiven des Lehrmodells auf das Schülermodell, ohne zusätzliche Parameter einzuführen. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode die Leistung von Schülermodellen unterschiedlicher Größe konsistent auf den Datensätzen Valentini und Deep Noise Suppression (DNS) verbessert. MANNER-S-8.1GF, ein leichtgewichtiges Modell für eine effiziente Bereitstellung, erreicht mit unserer Methode 15,4-fach weniger Parameter und 4,71-fach weniger Floating-Point-Operationen (FLOPs), verglichen mit dem Basismodell, bei vergleichbarer Leistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp