Semi-supervised Speech Recognition durch Lokale Prior-Übereinstimmung

Bei Aufgaben der Sequenztransduktion wie der Spracherkennung kodiert ein starkes strukturiertes Prior-Modell reichhaltige Informationen über den Zielraum und eliminiert ungültige Sequenzen implizit, indem es ihnen eine geringe Wahrscheinlichkeit zuweist. In dieser Arbeit stellen wir Local Prior Matching (LPM) vor, ein semi-supervisedes Optimierungsziel, das Wissen aus einem starken Prior (z. B. einem Sprachmodell) zur Bereitstellung von Lernsignalen für ein diskriminatives Modell, das auf unlabeled Sprachdaten trainiert wird, vermittelt. Wir zeigen, dass LPM theoretisch gut begründet, einfach zu implementieren und gegenüber bestehenden Techniken zur Wissensdistanzierung unter vergleichbaren Bedingungen überlegen ist. Ausgehend von einer Basislinie, die auf 100 Stunden beschrifteter Sprachdaten trainiert wurde, erreicht LPM mit zusätzlichen 360 Stunden unlabeled Daten eine Reduktion des Wortfehlerrates um 54 % und 73 % auf sauberen und rauschbehafteten Testsets im Vergleich zu einem vollständig überwachten Modell auf denselben Daten.