HyperAIHyperAI

Command Palette

Search for a command to run...

CAT: Ein auf CTC-CRF basierender ASR-Toolkit, der hybride und end-to-end Ansätze hinsichtlich Daten-Effizienz und geringer Latenz verbindet

Keyu An Hongyu Xiang Zhijian Ou

Zusammenfassung

In diesem Artikel stellen wir ein neues Open-Source-Toolkit für Spracherkennung vor, namens CAT (CTC-CRF-basiertes ASR-Toolkit). CAT übernimmt die dateneffiziente Eigenschaft des hybriden Ansatzes sowie die Einfachheit des end-to-end (E2E)-Ansatzes und bietet eine vollständige Implementierung von CTC-CRFs sowie komplette Trainings- und Testskripte für mehrere englische und chinesische Benchmark-Datenbanken. Experimente zeigen, dass CAT Ergebnisse auf dem Stand der Technik erzielt, die mit den feinabgestimmten hybriden Modellen in Kaldi vergleichbar sind, jedoch mit einer viel einfacheren Trainingspipeline. Im Vergleich zu bestehenden nicht-modularen E2E-Modellen erzielt CAT bessere Leistungen auf datenarmen Datensätzen und demonstriert somit seine Dateneffizienz. Darüber hinaus stellen wir eine neue Methode namens kontextualisiertes weiches Verlernen vor, die es CAT ermöglicht, Echtzeit-Spracherkennung durchzuführen, ohne die Genauigkeit zu beeinträchtigen. Wir hoffen, dass CAT – insbesondere der auf CTC-CRF basierende Rahmen und die Software – großes Interesse in der Forschungsgemeinschaft finden wird und weiter erforscht sowie verbessert werden kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp