HyperAIHyperAI
il y a 2 mois

Stratégies d'entraînement pour améliorer la lecture labiale

Ma, Pingchuan ; Wang, Yujiang ; Petridis, Stavros ; Shen, Jie ; Pantic, Maja
Stratégies d'entraînement pour améliorer la lecture labiale
Résumé

Plusieurs stratégies d'entraînement et modèles temporels ont été récemment proposés pour la lecture labiale de mots isolés dans une série de travaux indépendants. Cependant, le potentiel de combiner les meilleures stratégies et d'étudier l'impact de chacune d'entre elles n'a pas encore été exploré. Dans cet article, nous examinons systématiquement les performances des approches d'augmentation de données les plus avancées, des modèles temporels et d'autres stratégies d'entraînement, telles que l'autodistillation et l'utilisation d'indicateurs de limites de mots. Nos résultats montrent que le masquage temporel (Time Masking, TM) est la technique d'augmentation la plus importante, suivie par la méthode mixup. Les réseaux convolutionnels temporels densément connectés (Densely-Connected Temporal Convolutional Networks, DC-TCN) sont le meilleur modèle temporel pour la lecture labiale de mots isolés. L'utilisation de l'autodistillation et des indicateurs de limites de mots est également bénéfique, mais dans une moindre mesure. Une combinaison de toutes ces méthodes aboutit à une précision de classification de 93,4 %, ce qui représente une amélioration absolue de 4,6 % par rapport aux performances actuelles les plus avancées sur le jeu de données LRW. La performance peut être encore améliorée à 94,1 % grâce à un pré-entraînement sur des jeux de données supplémentaires. Une analyse des erreurs des différentes stratégies d'entraînement révèle que la performance s'améliore en augmentant la précision de classification des mots difficiles à reconnaître.

Stratégies d'entraînement pour améliorer la lecture labiale | Articles de recherche récents | HyperAI