HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance de la parole audiovisuelle de bout en bout avec des conformers

Pingchuan Ma Stavros Petridis Maja Pantic

Résumé

Dans cette étude, nous présentons un modèle hybride CTC/Attention basé sur un ResNet-18 et un transformateur augmenté de convolution (Conformer), qui peut être entraîné de manière end-to-end. Plus précisément, les encodeurs audio et visuel apprennent à extraire des caractéristiques directement à partir des pixels bruts et des formes d'onde audio, respectivement, avant de les transmettre aux conformers. La fusion est ensuite réalisée par l'intermédiaire d'un perceptron multicouche (MLP). Le modèle apprend à reconnaître les caractères en utilisant une combinaison de CTC et d'un mécanisme d'attention. Nous démontrons que l'entraînement end-to-end, au lieu d'utiliser des caractéristiques visuelles pré-calculées comme c'est couramment le cas dans la littérature, l'utilisation d'un conformer au lieu d'un réseau récurrent, ainsi que l'utilisation d'un modèle de langage basé sur un transformeur, améliorent considérablement les performances de notre modèle. Nous présentons des résultats sur les plus grands ensembles de données publiquement disponibles pour la reconnaissance de la parole au niveau des phrases, Lip Reading Sentences 2 (LRS2) et Lip Reading Sentences 3 (LRS3), respectivement. Les résultats montrent que nos modèles proposés améliorent largement l'état de l'art dans les expériences audio seule, visuelle seule et audio-visuelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp