il y a 10 jours

Apprentissage des représentations audiovisuelles par distillation de connaissances à partir de modèles fondamentaux de parole

Jing-Xuan Zhang, Genshun Wan, Jianqing Gao, Zhen-Hua Ling

Résumé

L’apprentissage des représentations audiovisuelles est essentiel pour faire progresser les tâches de traitement multimodales du discours, telles que la lecture labiale et la reconnaissance du discours audiovisuel. Récemment, les modèles fondamentaux du discours (speech foundation models, SFMs) ont démontré des capacités de généralisation remarquables sur diverses tâches liées au discours. S’appuyant sur ces avancées, nous proposons un modèle d’apprentissage des représentations audiovisuelles qui exploite une distillation de connaissances intermodales issue des SFMs. Dans notre approche, les SFMs agissent comme des enseignants, à partir desquels des représentations cachées de plusieurs couches sont extraites à l’aide d’entrées audio propres. Nous introduisons également une méthode d’ensemble de plusieurs enseignants pour distiller les connaissances vers un modèle étudiant qui reçoit des données audiovisuelles en entrée. Une nouvelle fonction de perte basée sur la distillation de connaissances représentationnelles est utilisée pour entraîner le modèle étudiant durant la phase de pré-entraînement, et cette même fonction est appliquée lors du fine-tuning afin d’améliorer davantage les performances sur les tâches en aval. Nos expérimentations ont utilisé à la fois un SFM auto-supervisé, WavLM, et un SFM supervisé, iFLYTEK-speech. Les résultats montrent que la méthode proposée atteint des performances supérieures ou au moins comparables aux meilleures solutions précédentes sur les tâches de reconnaissance automatique du discours, de reconnaissance du discours visuel et de reconnaissance du discours audiovisuel. En outre, des études d’ablation approfondies ainsi que des visualisations des représentations apprises ont été réalisées pour évaluer l’efficacité de la méthode proposée.