HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage des représentations audiovisuelles par distillation de connaissances à partir de modèles fondamentaux de parole

Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling

Résumé

L’apprentissage des représentations audiovisuelles est essentiel pour faire progresser les tâches de traitement multimodales du discours, telles que la lecture labiale et la reconnaissance du discours audiovisuel. Récemment, les modèles fondamentaux du discours (speech foundation models, SFMs) ont démontré des capacités de généralisation remarquables sur diverses tâches liées au discours. S’appuyant sur ces avancées, nous proposons un modèle d’apprentissage des représentations audiovisuelles qui exploite une distillation de connaissances intermodales issue des SFMs. Dans notre approche, les SFMs agissent comme des enseignants, à partir desquels des représentations cachées de plusieurs couches sont extraites à l’aide d’entrées audio propres. Nous introduisons également une méthode d’ensemble de plusieurs enseignants pour distiller les connaissances vers un modèle étudiant qui reçoit des données audiovisuelles en entrée. Une nouvelle fonction de perte basée sur la distillation de connaissances représentationnelles est utilisée pour entraîner le modèle étudiant durant la phase de pré-entraînement, et cette même fonction est appliquée lors du fine-tuning afin d’améliorer davantage les performances sur les tâches en aval. Nos expérimentations ont utilisé à la fois un SFM auto-supervisé, WavLM, et un SFM supervisé, iFLYTEK-speech. Les résultats montrent que la méthode proposée atteint des performances supérieures ou au moins comparables aux meilleures solutions précédentes sur les tâches de reconnaissance automatique du discours, de reconnaissance du discours visuel et de reconnaissance du discours audiovisuel. En outre, des études d’ablation approfondies ainsi que des visualisations des représentations apprises ont été réalisées pour évaluer l’efficacité de la méthode proposée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp