HyperAIHyperAI
vor 17 Tagen

RemixIT: Kontinuierliches Selbst-Training von Sprachverbesserungsmodellen durch bootstrappendes Remixen

Efthymios Tzinis, Yossi Adi, Vamsi Krishna Ithapu, Buye Xu, Paris Smaragdis, Anurag Kumar
RemixIT: Kontinuierliches Selbst-Training von Sprachverbesserungsmodellen durch bootstrappendes Remixen
Abstract

Wir präsentieren RemixIT, eine einfache, jedoch effektive selbstüberwachte Methode zur Schulung von Spracherkennungsverfahren, die weder einzelne isolierte Sprachsignale aus dem jeweiligen Domänenbereich noch Rauschwellenformen erfordert. Unser Ansatz überwindet die Beschränkungen früherer Methoden, die auf saubere, domänenbezogene Zielsignale angewiesen sind und daher empfindlich gegenüber Domänenunterschieden zwischen Trainings- und Testdaten sind. RemixIT basiert auf einem kontinuierlichen Selbsttrainingsansatz, bei dem ein vorab auf außerhalb der Domäne liegenden Daten trainierter Lehrmodell geschätzte Pseudoziel-Signale für domänenbezogene Mischsignale erzeugt. Anschließend werden die geschätzten reinen Sprach- und Rauschsignale permutiert und erneut gemischt, um eine neue Menge an bootstrapped-Mischsignalen und entsprechenden Pseudozielen zu generieren, die zur Schulung des Schülermodells verwendet werden. Umgekehrt verfeinert der Lehrmodell seine Schätzungen periodisch mithilfe der aktualisierten Parameter des neuesten Schülermodells. Experimentelle Ergebnisse auf mehreren Spracherkennungs-Datensätzen und -Aufgaben zeigen nicht nur die Überlegenheit unseres Verfahrens gegenüber vorherigen Ansätzen, sondern demonstrieren auch, dass RemixIT mit beliebigen Separationsmodellen kombiniert werden kann und sich für jegliche semi-überwachte sowie unüberwachte Domänenanpassungsaufgaben einsetzen lässt. Unsere Analyse, ergänzt durch empirische Belege, beleuchtet das innere Funktionieren unseres Selbsttrainingsansatzes, bei dem das Schülermodell kontinuierlich bessere Leistung erzielt, selbst wenn es mit erheblich beeinträchtigten Pseudozielsignalen konfrontiert ist.