il y a 2 mois

Apprendre un modèle de lecture labiale efficace sans douleur

Feng, Dalu ; Yang, Shuang ; Shan, Shiguang ; Chen, Xilin

Résumé

La lecture labiale, également connue sous le nom de reconnaissance visuelle de la parole, vise à reconnaître le contenu de la parole à partir de vidéos en analysant les dynamiques des lèvres. Ces dernières années, plusieurs progrès notables ont été réalisés, grâce notamment au développement rapide des techniques d'apprentissage profond et aux récentes bases de données à grande échelle pour la lecture labiale. La plupart des méthodes existantes ont obtenu de hautes performances en construisant un réseau neuronal complexe, associé à plusieurs stratégies d'entraînement personnalisées qui étaient souvent décrites succinctement ou même uniquement présentées dans le code source. Nous avons constaté que l'utilisation appropriée de ces stratégies pouvait toujours apporter des améliorations enthousiasmantes sans modifier considérablement le modèle. Étant donné les effets non négligeables de ces stratégies et la difficulté actuelle d'entraîner un modèle efficace de lecture labiale, nous avons réalisé une étude quantitative complète et une analyse comparative, pour la première fois, afin de montrer les effets de plusieurs choix différents pour la lecture labiale. En introduisant simplement quelques raffinements faciles à obtenir dans le pipeline de base, nous avons obtenu une amélioration significative des performances, passant de 83,7 % à 88,4 % et de 38,2 % à 55,7 % sur les deux plus grandes bases de données publiques disponibles pour la lecture labiale, LRW et LRW-1000, respectivement. Ces résultats sont comparables et même surpassent les résultats existants les plus avancés (state-of-the-art).