HyperAIHyperAI
il y a 11 jours

Reconnaissance de la parole audiovisuelle par lipreading basé sur les parties

{Bing Yang, Hong Liu, Ziling Miao}
Résumé

La lecture labiale constitue une composante essentielle de la reconnaissance vocale audio-visuelle. Toutefois, les lèvres sont généralement modélisées de manière globale en lecture labiale, ce qui ignore le fait que chaque partie des lèvres met l'accent sur des caractéristiques différentes de la bouche, et que le modèle global ne peut pas s'adapter parfaitement à chacune de ces parties. En outre, les caractéristiques extraites à partir de l'ensemble des lèvres varient souvent considérablement selon les locuteurs, ce qui entraîne une dépendance excessive des modèles vis-à-vis du nombre de locuteurs présents dans les bases d'entraînement, qui doivent donc inclure autant de locuteurs que possible. Dans cet article, une méthode de lecture labiale basée sur les parties (PBL, Part-based Lipreading) est proposée afin de résoudre le désalignement entre un modèle global des lèvres et les différentes parties individuelles, ainsi que la dépendance excessive des modèles vis-à-vis des locuteurs présents dans les jeux de données d'entraînement. La méthode PBL modélise les lèvres par parties et effectue une prédiction conjointe. Elle applique une stratégie de partition uniforme sur les caractéristiques issues de convolution et génère plusieurs sous-résultats au niveau des parties pour la prédiction finale. Des expériences ont été menées sur un grand jeu de données publique (LRW) ainsi que sur une sous-partie de celui-ci (p-LRW, 65 mots), afin de simuler des instructions progressives dans un contexte d’application robotique. Le taux de précision des mots atteint 82,8 % sur LRW et 88,9 % sur p-LRW. Enfin, un système de reconnaissance vocale audio-visuelle end-to-end utilisant la méthode PBL a été mis en œuvre, atteignant une précision de 98,3 % sur LRW.

Reconnaissance de la parole audiovisuelle par lipreading basé sur les parties | Articles de recherche récents | HyperAI