HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance Visuelle de la Parole pour Multiple Langues dans des Conditions Réelles

Pingchuan Ma Stavros Petridis Maja Pantic

Résumé

La reconnaissance de la parole visuelle (RPV) vise à reconnaître le contenu d'un discours en se basant sur les mouvements des lèvres, sans s'appuyer sur le flux audio. Les progrès réalisés dans l'apprentissage profond et la disponibilité de grands ensembles de données audiovisuelles ont permis le développement de modèles de RPV beaucoup plus précis et robustes qu'auparavant. Cependant, ces avancées sont généralement attribuables à des ensembles d'entraînement plus importants plutôt qu'à la conception du modèle. Nous démontrons ici que la conception de meilleurs modèles est tout aussi importante que l'utilisation d'ensembles d'entraînement plus larges. Nous proposons l'ajout de tâches auxiliaires basées sur la prédiction à un modèle de RPV, et soulignons l'importance de l'optimisation des hyperparamètres et des augmentations de données appropriées. Nous montrons que ce type de modèle fonctionne pour différentes langues et surpasse toutes les méthodes précédentes formées sur des ensembles de données publiquement disponibles avec une marge considérable. Il dépasse même les modèles entraînés sur des ensembles de données non publiques contenant jusqu'à 21 fois plus de données. De plus, nous démontrons que l'utilisation de données d'entraînement supplémentaires, même dans d'autres langues ou avec des transcriptions générées automatiquement, entraîne une amélioration supplémentaire.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp