Les systèmes de reconnaissance automatique de la parole sont-ils encore nécessaires pour la compréhension du langage parlé ?

Les tâches de compréhension du langage parlé (SLU) sont généralement résolues en transcrivant d’abord une énonciation à l’aide d’un système de reconnaissance automatique de la parole (ASR), puis en alimentant le résultat dans un modèle basé sur le texte. Les avancées récentes dans l’apprentissage de représentations auto-supervisées pour les données audio se sont concentrées principalement sur l’amélioration du composant ASR. Nous nous demandons si l’apprentissage de représentations audio a suffisamment maturé pour remplacer l’ASR dans les tâches SLU. Nous comparons les caractéristiques audio apprises à partir de wav2vec 2.0, les transcriptions ASR d’état de l’art, et le texte de référence comme entrée pour une nouvelle tâche de reconnaissance d’entités nommées basée sur la parole, une tâche de détection d’arrêt cardiaque à partir d’appels d’urgence réels, ainsi que deux benchmarks existants en SLU. Nous montrons que les représentations audio apprises surpassent les transcriptions ASR sur trois tâches de classification. En revanche, pour la traduction automatique, les transcriptions ASR restent la meilleure option. Nous mettons en évidence la robustesse intrinsèque des représentations wav2vec 2.0 face aux mots hors vocabulaire comme facteur clé de leurs meilleures performances.