HyperAIHyperAI

Command Palette

Search for a command to run...

Les conformers sont tout ce dont vous avez besoin pour la reconnaissance visuelle de la parole.

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

Résumé

Les modèles de reconnaissance visuelle de la parole extraient des caractéristiques visuelles de manière hiérarchique. Au niveau inférieur, il existe une interface visuelle frontale avec un champ récepteur temporel limité qui traite les pixels bruts représentant les lèvres ou les visages. Au niveau supérieur, il y a un encodeur qui porte attention aux plongements (embeddings) produits par l'interface frontale sur un champ récepteur temporel étendu. Les travaux précédents se sont concentrés sur l'amélioration de l'interface visuelle frontale du modèle afin d'extraire des caractéristiques plus utiles pour la reconnaissance de la parole. De manière surprenante, notre travail montre que des interfaces visuelles frontales complexes ne sont pas nécessaires. Au lieu d'allouer des ressources à une interface frontale sophistiquée, nous constatons qu'une interface frontale linéaire associée à un encodeur Conformer plus grand permet d'obtenir une latence plus faible, une utilisation mémoire plus efficace et une amélioration des performances en termes de taux d'erreur de reconnaissance (WER). Nous atteignons un nouveau niveau d'excellence avec un WER de 12,8 % pour la reconnaissance visuelle de la parole sur le jeu de données TED LRS3, ce qui égale presque les performances des modèles basés uniquement sur l'audio d'il y a quatre ans.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp