Fortlaufendes Selbst-Training mit bootstrapped Remixing für die Sprachverbesserung

Wir stellen RemixIT vor, eine einfache und neuartige selbstüberwachte Trainingsmethode für die Sprachverbesserung. Die vorgeschlagene Methode basiert auf einem kontinuierlichen Selbsttrainingsansatz, der Einschränkungen früherer Studien überwindet, darunter Annahmen über die Verteilung von In-Domain-Rauschsignalen und den Zugriff auf saubere Zielsignale. Konkret wird ein Separations-Teacher-Modell zunächst auf einem außerhalb des Domänenbereichs liegenden Datensatz vortrainiert und anschließend verwendet, um für eine Batch von In-Domain-Mischungen geschätzte Zielsignale abzuleiten. Anschließend bootstrappen wir den Mischprozess, indem wir künstliche Mischungen unter Verwendung permutierter geschätzter sauberer Signale und Rauschsignale erzeugen. Schließlich wird das Student-Modell mit den permutierten geschätzten Quellen als Zielwerte trainiert, während wir die Gewichte des Teacher-Modells periodisch mit dem neuesten Student-Modell aktualisieren. Unsere Experimente zeigen, dass RemixIT mehrere frühere state-of-the-art-Methoden für selbstüberwachtes Lernen unter verschiedenen Aufgaben der Sprachverbesserung übertrifft. Darüber hinaus bietet RemixIT eine nahtlose Alternative für semi- und unsupervised Domain-Adaptation in Aufgaben der Sprachverbesserung und ist allgemein genug, um auf beliebige Trennungsaufgaben anwendbar zu sein und mit beliebigen Trennmodellen kombiniert zu werden.