Classification et localisation séquentielle d'intention et d'éléments (slots) en bout-en-bout

L’interaction homme-machine (IHM) est fortement affectée par les délais de réponse d’un système de dialogue parlé. Par conséquent, des solutions récentes de compréhension du langage parlé (SLU) en bout à bout (end-to-end, e2e) ont été proposées afin de réduire la latence. Ces approches permettent d’extraire directement les informations sémantiques à partir du signal vocal, évitant ainsi la nécessité d’un transcript fourni par un système de reconnaissance automatique de la parole (ASR). Dans cet article, nous proposons une architecture compacte de SLU e2e adaptée aux scénarios en flux continu, où des tronçons du signal vocal sont traités de manière continue afin de prédire l’intention et les valeurs des emplacements (slots). Notre modèle repose sur un réseau de neurones convolutif 3D (3D-CNN) et sur une mémoire à long terme à sens unique (LSTM unidirectionnel). Nous comparons les performances de deux pertes sans alignement : la méthode de classification temporelle connexionniste (CTC) et sa version adaptée, appelée localisation temporelle connexionniste (CTL). Cette dernière effectue non seulement la classification, mais également la localisation des événements audio séquentiels. La solution proposée est évaluée sur le jeu de données Fluent Speech Command. Les résultats montrent que notre modèle est capable de traiter efficacement le signal vocal en temps réel, atteignant une précision de 98,97 % pour CTC et 98,78 % pour CTL dans le cas de la classification à étiquette unique, et jusqu’à 95,69 % pour CTC et 95,28 % pour CTL dans le cas de la prédiction à deux étiquettes.