HyperAIHyperAI
il y a 2 mois

Unified Speech Recognition : Un Modèle Unique pour les Entrées Auditives, Visuelles et Audiovisuelles

Haliassos, Alexandros ; Mira, Rodrigo ; Chen, Honglie ; Landgraf, Zoe ; Petridis, Stavros ; Pantic, Maja
Unified Speech Recognition : Un Modèle Unique pour les Entrées Auditives, Visuelles et Audiovisuelles
Résumé

Les recherches en reconnaissance de la parole auditive, visuelle et audiovisuelle (ASR, VSR et AVSR respectivement) ont traditionnellement été menées de manière indépendante. Même les études auto-supervisées récentes abordant deux ou les trois tâches simultanément tendent à produire des modèles distincts, entraînant des pipelines d'inférence disjoints avec des exigences mémoire accrues et des redondances. Cet article propose des stratégies d'entraînement unifiées pour ces systèmes. Nous démontrons que l'entraînement d'un seul modèle pour les trois tâches améliore les performances de la VSR et de l'AVSR, surmontant les défis d'optimisation typiques lors de l'entraînement à partir de zéro. De plus, nous introduisons une approche de pseudo-étiquetage glouton pour exploiter plus efficacement les échantillons non étiquetés, remédiant aux lacunes des méthodes auto-supervisées connexes. Enfin, nous développons une méthode d'entraînement préalable auto-supervisée au sein de notre cadre, prouvant son efficacité en complément de notre approche semi-supervisée. Malgré l'utilisation d'un seul modèle pour toutes les tâches, notre approche unifiée atteint des performances de pointe comparables aux méthodes récentes sur LRS3 et LRS2 pour ASR, VSR et AVSR, ainsi que sur le nouveau jeu de données WildVSR. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/ahaliassos/usr.

Unified Speech Recognition : Un Modèle Unique pour les Entrées Auditives, Visuelles et Audiovisuelles | Articles de recherche récents | HyperAI