HyperAIHyperAI
il y a 17 jours

FunASR : Un outil fondamental de reconnaissance vocale end-to-end

Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Zhangyu Xiao, Shiliang Zhang
FunASR : Un outil fondamental de reconnaissance vocale end-to-end
Résumé

Cet article présente FunASR, un outil open-source de reconnaissance vocale conçu pour combler le fossé entre la recherche académique et les applications industrielles. FunASR propose des modèles entraînés sur de grandes corpora industriels et la capacité de les déployer dans des applications concrètes. Son modèle phare, Paraformer, est un modèle de reconnaissance vocale end-to-end non-autorégressif, entraîné sur un ensemble de données d’annotation manuelle de la parole mandarine, comprenant 60 000 heures de parole. Pour améliorer les performances de Paraformer, nous avons ajouté à l’architecture de base du modèle des fonctionnalités de prédiction de timestamps et de personnalisation de mots-clés (hotwords). En outre, afin de faciliter le déploiement des modèles, nous avons rendu open-source un modèle de détection d’activité vocale basé sur le réseau de mémoire séquentielle à feedforward (FSMN-VAD) et un modèle de post-traitement du texte pour l’ajout de ponctuation, fondé sur le Transformer à délai temporel contrôlable (CT-Transformer), tous deux entraînés sur des corpora industriels. Ces modules fonctionnels constituent une base solide pour le développement de services de reconnaissance vocale haute précision sur des audio longs. Par rapport à d’autres modèles entraînés sur des jeux de données ouverts, Paraformer démontre des performances supérieures.

FunASR : Un outil fondamental de reconnaissance vocale end-to-end | Articles de recherche récents | HyperAI