il y a 11 jours

Finstreder : Compréhension simple et rapide du langage parlé à l’aide de transducteurs à états finis avec des modèles modernes de reconnaissance vocale-texte

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif

Résumé

Dans le domaine de la compréhension du langage parlé (SLU), la tâche consiste à extraire des informations pertinentes à partir de commandes audio, telles que l’intention de l’utilisateur (c’est-à-dire ce qu’il souhaite que le système fasse) ainsi que des entités spécifiques comme des lieux ou des nombres. Ce papier présente une méthode simple permettant d’incorporer les intentions et les entités dans des transducteurs à états finis. En combinaison avec un modèle pré-entraîné généraliste de reconnaissance vocale (Speech-to-Text), cette approche permet de construire des modèles SLU sans nécessiter d’entraînement supplémentaire. La construction de ces modèles est extrêmement rapide, ne prenant que quelques secondes, et est entièrement indépendante de la langue. À l’aide de comparaisons sur divers benchmarks, il est démontré que cette méthode peut surpasser plusieurs autres approches SLU plus coûteuses en ressources.