FunASR: Ein grundlegendes End-to-End Spracherkennungstoolkit

Diese Arbeit stellt FunASR vor, ein Open-Source-Spracherkennungstoolkit, das die Lücke zwischen akademischer Forschung und industriellen Anwendungen schließen soll. FunASR bietet Modelle, die auf großskaligen industriellen Korpora trainiert wurden, sowie die Möglichkeit, diese in praktischen Anwendungen einzusetzen. Das Kernmodell des Toolkits, Paraformer, ist ein nicht-autoregressives end-to-end-Spracherkennungsmodell, das auf einem manuell annotierten, mandarin-sprachigen Spracherkennungsdataset mit insgesamt 60.000 Stunden Sprachmaterial trainiert wurde. Um die Leistungsfähigkeit von Paraformer weiter zu verbessern, haben wir dem Standard-Paraformer-Backbone die Fähigkeiten zur Zeitstempelvorhersage und Hotword-Anpassung hinzugefügt. Darüber hinaus haben wir zur Vereinfachung der Modellbereitstellung ein Sprachaktivitätserkennungsmodell basierend auf dem Feedforward Sequential Memory Network (FSMN-VAD) sowie ein Text-Nachverarbeitungs-Punktuationsmodell auf Basis des kontrollierbaren Time-Delay Transformer (CT-Transformer) öffentlich gemacht, beide ebenfalls auf industriellen Korpora trainiert. Diese funktionalen Komponenten bilden eine solide Grundlage für die Entwicklung hochpräziser Dienste zur Spracherkennung langformiger Audiodaten. Im Vergleich zu anderen Modellen, die auf öffentlichen Datensätzen trainiert wurden, zeigt Paraformer eine überlegene Leistung.