HyperAIHyperAI

Command Palette

Search for a command to run...

FunASR: Ein grundlegendes End-to-End Spracherkennungstoolkit

Zusammenfassung

Diese Arbeit stellt FunASR vor, ein Open-Source-Spracherkennungstoolkit, das die Lücke zwischen akademischer Forschung und industriellen Anwendungen schließen soll. FunASR bietet Modelle, die auf großskaligen industriellen Korpora trainiert wurden, sowie die Möglichkeit, diese in praktischen Anwendungen einzusetzen. Das Kernmodell des Toolkits, Paraformer, ist ein nicht-autoregressives end-to-end-Spracherkennungsmodell, das auf einem manuell annotierten, mandarin-sprachigen Spracherkennungsdataset mit insgesamt 60.000 Stunden Sprachmaterial trainiert wurde. Um die Leistungsfähigkeit von Paraformer weiter zu verbessern, haben wir dem Standard-Paraformer-Backbone die Fähigkeiten zur Zeitstempelvorhersage und Hotword-Anpassung hinzugefügt. Darüber hinaus haben wir zur Vereinfachung der Modellbereitstellung ein Sprachaktivitätserkennungsmodell basierend auf dem Feedforward Sequential Memory Network (FSMN-VAD) sowie ein Text-Nachverarbeitungs-Punktuationsmodell auf Basis des kontrollierbaren Time-Delay Transformer (CT-Transformer) öffentlich gemacht, beide ebenfalls auf industriellen Korpora trainiert. Diese funktionalen Komponenten bilden eine solide Grundlage für die Entwicklung hochpräziser Dienste zur Spracherkennung langformiger Audiodaten. Im Vergleich zu anderen Modellen, die auf öffentlichen Datensätzen trainiert wurden, zeigt Paraformer eine überlegene Leistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FunASR: Ein grundlegendes End-to-End Spracherkennungstoolkit | Paper | HyperAI