CR-CTC: Konsistenzregularisierung auf CTC zur Verbesserung der Spracherkennung

Connectionist Temporal Classification (CTC) ist eine weit verbreitete Methode für die automatische Spracherkennung (ASR), die durch ihre Einfachheit und rechnerische Effizienz bekannt ist. Dennoch erzielt sie oft unzureichende Erkennungsleistung. In dieser Arbeit stellen wir die Consistency-Regularized CTC (CR-CTC) vor, die Konsistenz zwischen zwei CTC-Verteilungen herstellt, die aus unterschiedlichen augmentierten Ansichten des Eingabesprachemel-Spektrogramms abgeleitet werden. Wir geben tiefgreifende Einblicke in ihre wesentlichen Verhaltensweisen aus drei Perspektiven: 1) Sie führt eine Selbst-Distillation zwischen zufälligen Paaren von Sub-Modellen durch, die jeweils unterschiedliche augmentierte Ansichten verarbeiten; 2) Sie lernt kontextuelle Repräsentationen durch maskierte Vorhersage für Positionen innerhalb zeitlich maskierter Regionen, insbesondere wenn die Menge der zeitlichen Maskierung erhöht wird; 3) Sie dämpft die extrem spitzen CTC-Verteilungen, wodurch Überanpassung reduziert und die Generalisierungsfähigkeit verbessert wird. Umfangreiche Experimente auf den Datensätzen LibriSpeech, Aishell-1 und GigaSpeech belegen die Wirksamkeit unserer CR-CTC. Sie verbessert die CTC-Leistung signifikant und erreicht Ergebnisse auf dem Stand der Technik, die mit denen von Transduktoren oder Systemen vergleichbar sind, die CTC mit einem auf Aufmerksamkeit basierenden Encoder-Decoder (CTC/AED) kombinieren. Wir stellen unseren Code unter https://github.com/k2-fsa/icefall zur Verfügung.