CAT: Ein auf CTC-CRF basierender ASR-Toolkit, der hybride und end-to-end Ansätze hinsichtlich Daten-Effizienz und geringer Latenz verbindet

In diesem Artikel stellen wir ein neues Open-Source-Toolkit für Spracherkennung vor, namens CAT (CTC-CRF-basiertes ASR-Toolkit). CAT übernimmt die dateneffiziente Eigenschaft des hybriden Ansatzes sowie die Einfachheit des end-to-end (E2E)-Ansatzes und bietet eine vollständige Implementierung von CTC-CRFs sowie komplette Trainings- und Testskripte für mehrere englische und chinesische Benchmark-Datenbanken. Experimente zeigen, dass CAT Ergebnisse auf dem Stand der Technik erzielt, die mit den feinabgestimmten hybriden Modellen in Kaldi vergleichbar sind, jedoch mit einer viel einfacheren Trainingspipeline. Im Vergleich zu bestehenden nicht-modularen E2E-Modellen erzielt CAT bessere Leistungen auf datenarmen Datensätzen und demonstriert somit seine Dateneffizienz. Darüber hinaus stellen wir eine neue Methode namens kontextualisiertes weiches Verlernen vor, die es CAT ermöglicht, Echtzeit-Spracherkennung durchzuführen, ohne die Genauigkeit zu beeinträchtigen. Wir hoffen, dass CAT – insbesondere der auf CTC-CRF basierende Rahmen und die Software – großes Interesse in der Forschungsgemeinschaft finden wird und weiter erforscht sowie verbessert werden kann.