HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance de la parole audiovisuelle par lipreading basé sur les parties

Bing Yang Hong Liu Ziling Miao

Résumé

La lecture labiale constitue une composante essentielle de la reconnaissance vocale audio-visuelle. Toutefois, les lèvres sont généralement modélisées de manière globale en lecture labiale, ce qui ignore le fait que chaque partie des lèvres met l'accent sur des caractéristiques différentes de la bouche, et que le modèle global ne peut pas s'adapter parfaitement à chacune de ces parties. En outre, les caractéristiques extraites à partir de l'ensemble des lèvres varient souvent considérablement selon les locuteurs, ce qui entraîne une dépendance excessive des modèles vis-à-vis du nombre de locuteurs présents dans les bases d'entraînement, qui doivent donc inclure autant de locuteurs que possible. Dans cet article, une méthode de lecture labiale basée sur les parties (PBL, Part-based Lipreading) est proposée afin de résoudre le désalignement entre un modèle global des lèvres et les différentes parties individuelles, ainsi que la dépendance excessive des modèles vis-à-vis des locuteurs présents dans les jeux de données d'entraînement. La méthode PBL modélise les lèvres par parties et effectue une prédiction conjointe. Elle applique une stratégie de partition uniforme sur les caractéristiques issues de convolution et génère plusieurs sous-résultats au niveau des parties pour la prédiction finale. Des expériences ont été menées sur un grand jeu de données publique (LRW) ainsi que sur une sous-partie de celui-ci (p-LRW, 65 mots), afin de simuler des instructions progressives dans un contexte d’application robotique. Le taux de précision des mots atteint 82,8 % sur LRW et 88,9 % sur p-LRW. Enfin, un système de reconnaissance vocale audio-visuelle end-to-end utilisant la méthode PBL a été mis en œuvre, atteignant une précision de 98,3 % sur LRW.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp