HyperAIHyperAI

Command Palette

Search for a command to run...

Agrégation unimodale pour la reconnaissance vocale basée sur le CTC

Ying Fang Xiaofei Li

Résumé

Ce papier se consacre à la reconnaissance automatique de la parole non autoregressive. Une aggregation unimodale (UMA) est proposée afin de segmenter et d'intégrer les trames de caractéristiques appartenant au même token textuel, permettant ainsi d'apprendre des représentations de caractéristiques améliorées pour les tokens textuels. Les trames de caractéristiques ainsi que les poids associés sont tous deux extraits d'un encodeur. Ensuite, les trames de caractéristiques pondérées par des poids unimodaux sont intégrées puis traitées par un décodeur. Une perte de classification temporelle connexionniste (CTC) est utilisée pour l'entraînement. Par rapport à la CTC classique, la méthode proposée apprend des représentations de caractéristiques plus efficaces et réduit la longueur de la séquence, conduisant à une erreur de reconnaissance plus faible et à une complexité computationnelle réduite. Des expériences menées sur trois jeux de données en mandarin montrent que l'UMA atteint des performances supérieures ou comparables à celles d'autres méthodes avancées non autoregressive, telles que la CTC auto-conditionnée. En outre, l'intégration de la CTC auto-conditionnée dans le cadre proposé permet d'améliorer notablement les performances.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp