HyperAIHyperAI

Command Palette

Search for a command to run...

Apprendre un modèle de lecture labiale efficace sans douleur

Feng Dalu ; Yang Shuang ; Shan Shiguang ; Chen Xilin

Résumé

La lecture labiale, également connue sous le nom de reconnaissance visuelle de la parole, vise à reconnaître le contenu de la parole à partir de vidéos en analysant les dynamiques des lèvres. Ces dernières années, plusieurs progrès notables ont été réalisés, grâce notamment au développement rapide des techniques d'apprentissage profond et aux récentes bases de données à grande échelle pour la lecture labiale. La plupart des méthodes existantes ont obtenu de hautes performances en construisant un réseau neuronal complexe, associé à plusieurs stratégies d'entraînement personnalisées qui étaient souvent décrites succinctement ou même uniquement présentées dans le code source. Nous avons constaté que l'utilisation appropriée de ces stratégies pouvait toujours apporter des améliorations enthousiasmantes sans modifier considérablement le modèle. Étant donné les effets non négligeables de ces stratégies et la difficulté actuelle d'entraîner un modèle efficace de lecture labiale, nous avons réalisé une étude quantitative complète et une analyse comparative, pour la première fois, afin de montrer les effets de plusieurs choix différents pour la lecture labiale. En introduisant simplement quelques raffinements faciles à obtenir dans le pipeline de base, nous avons obtenu une amélioration significative des performances, passant de 83,7 % à 88,4 % et de 38,2 % à 55,7 % sur les deux plus grandes bases de données publiques disponibles pour la lecture labiale, LRW et LRW-1000, respectivement. Ces résultats sont comparables et même surpassent les résultats existants les plus avancés (state-of-the-art).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprendre un modèle de lecture labiale efficace sans douleur | Articles | HyperAI