HyperAIHyperAI
il y a 17 jours

Agrégation unimodale pour la reconnaissance vocale basée sur le CTC

Ying Fang, Xiaofei Li
Agrégation unimodale pour la reconnaissance vocale basée sur le CTC
Résumé

Ce papier se consacre à la reconnaissance automatique de la parole non autoregressive. Une aggregation unimodale (UMA) est proposée afin de segmenter et d'intégrer les trames de caractéristiques appartenant au même token textuel, permettant ainsi d'apprendre des représentations de caractéristiques améliorées pour les tokens textuels. Les trames de caractéristiques ainsi que les poids associés sont tous deux extraits d'un encodeur. Ensuite, les trames de caractéristiques pondérées par des poids unimodaux sont intégrées puis traitées par un décodeur. Une perte de classification temporelle connexionniste (CTC) est utilisée pour l'entraînement. Par rapport à la CTC classique, la méthode proposée apprend des représentations de caractéristiques plus efficaces et réduit la longueur de la séquence, conduisant à une erreur de reconnaissance plus faible et à une complexité computationnelle réduite. Des expériences menées sur trois jeux de données en mandarin montrent que l'UMA atteint des performances supérieures ou comparables à celles d'autres méthodes avancées non autoregressive, telles que la CTC auto-conditionnée. En outre, l'intégration de la CTC auto-conditionnée dans le cadre proposé permet d'améliorer notablement les performances.