il y a 6 mois

Résumé

Ce papier se consacre à la reconnaissance automatique de la parole non autoregressive. Une aggregation unimodale (UMA) est proposée afin de segmenter et d'intégrer les trames de caractéristiques appartenant au même token textuel, permettant ainsi d'apprendre des représentations de caractéristiques améliorées pour les tokens textuels. Les trames de caractéristiques ainsi que les poids associés sont tous deux extraits d'un encodeur. Ensuite, les trames de caractéristiques pondérées par des poids unimodaux sont intégrées puis traitées par un décodeur. Une perte de classification temporelle connexionniste (CTC) est utilisée pour l'entraînement. Par rapport à la CTC classique, la méthode proposée apprend des représentations de caractéristiques plus efficaces et réduit la longueur de la séquence, conduisant à une erreur de reconnaissance plus faible et à une complexité computationnelle réduite. Des expériences menées sur trois jeux de données en mandarin montrent que l'UMA atteint des performances supérieures ou comparables à celles d'autres méthodes avancées non autoregressive, telles que la CTC auto-conditionnée. En outre, l'intégration de la CTC auto-conditionnée dans le cadre proposé permet d'améliorer notablement les performances.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Reconnaissance Vocale

Transformer

Traitement Du Langage Naturel

Approche/Framework

Traitement Du Langage Naturel

Audio

Tâche

Ying Fang Xiaofei Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Reconnaissance Vocale

Transformer

Traitement Du Langage Naturel

Approche/Framework

Traitement Du Langage Naturel

Audio

Tâche

Ying Fang Xiaofei Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Agrégation unimodale pour la reconnaissance vocale basée sur le CTC

Ying Fang Xiaofei Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Agrégation unimodale pour la reconnaissance vocale basée sur le CTC

Ying Fang Xiaofei Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Agrégation unimodale pour la reconnaissance vocale basée sur le CTC

Ying Fang Xiaofei Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters