Multi-View Attention Transfer für effiziente Sprachverbesserung

Neuere Deep-Learning-Modelle haben hohe Leistung in der Spracherkennung erzielt; dennoch bleibt die Entwicklung schneller und recheneffizienter Modelle ohne signifikante Leistungsabnahme herausfordernd. Frühere Studien zur Wissens-Distillation in der Sprachverbesserung konnten dieses Problem nicht lösen, da ihre Ausgabedistillationsansätze in gewissen Aspekten nicht gut auf die Aufgabe der Sprachverbesserung abgestimmt sind. In dieser Studie stellen wir Multi-View-Attention-Transfer (MV-AT), eine featurebasierte Distillation, vor, um effiziente Sprachverbesserungsmodelle im Zeitbereich zu erzielen. Aufbauend auf einem Modell zur Extraktion mehrerer Ansichtsmerkmale überträgt MV-AT Wissen aus mehreren Perspektiven des Lehrmodells auf das Schülermodell, ohne zusätzliche Parameter einzuführen. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode die Leistung von Schülermodellen unterschiedlicher Größe konsistent auf den Datensätzen Valentini und Deep Noise Suppression (DNS) verbessert. MANNER-S-8.1GF, ein leichtgewichtiges Modell für eine effiziente Bereitstellung, erreicht mit unserer Methode 15,4-fach weniger Parameter und 4,71-fach weniger Floating-Point-Operationen (FLOPs), verglichen mit dem Basismodell, bei vergleichbarer Leistung.