HyperAIHyperAI

Command Palette

Search for a command to run...

FANS : Fusion de la reconnaissance vocale automatique et de la compréhension linguistique naturelle pour la reconnaissance de la parole en langue naturelle sur dispositif embarqué

Martin Radfar Athanasios Mouchtaris Siegfried Kunzmann Ariya Rastrow

Résumé

Les systèmes de compréhension du langage parlé (SLU) transforment les commandes vocales en sémantique, codées sous la forme d’un intent (intention) ainsi que de paires de balises de champs (slot tags) et de leurs valeurs associées. La plupart des systèmes SLU actuels reposent sur une chaîne de deux modèles neuronaux : le premier convertit l’audio d’entrée en transcript (ASR), et le second prédit l’intention et les champs à partir du transcript (NLU). Dans cet article, nous présentons FANS, un nouveau modèle SLU end-to-end qui fusionne un encodeur audio ASR avec un décodeur NLU multitâche afin d’inférer directement l’intention, les balises de champs et les valeurs des champs à partir d’un audio d’entrée donné, éliminant ainsi la nécessité de transcription. FANS est composé d’un encodeur audio partagé et de trois décodeurs, dont deux sont des décodeurs séquence-à-séquence qui prédise en parallèle et de manière auto-régressive les balises de champs non nulles et leurs valeurs. Les architectures de l’encodeur et des décodeurs neuronaux de FANS sont flexibles, permettant d’exploiter différentes combinaisons de LSTM, d’attention auto-attentive et d’opérateurs d’attention. Nos expérimentations montrent que, par rapport aux modèles SLU end-to-end les plus avancés, FANS réduit respectivement les erreurs ICER et IRER de 30 % et 7 % sur un jeu de données SLU interne, et de 0,86 % et 2 % en valeur absolue sur un jeu de données SLU public.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
FANS : Fusion de la reconnaissance vocale automatique et de la compréhension linguistique naturelle pour la reconnaissance de la parole en langue naturelle sur dispositif embarqué | Articles | HyperAI