HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement en langage parlé pour la compréhension linguistique parlée en bout-en-bout

Yao Qian Ximo Bian Yu Shi Naoyuki Kanda Leo Shen Zhen Xiao Michael Zeng

Résumé

La compréhension linguistique parlée (SLU) end-to-end (E2E) permet d’inférer directement le sens à partir du signal vocal, sans recourir à une chaîne composée d’un système de reconnaissance automatique de la parole (ASR) suivi d’un module de compréhension du langage naturel (NLU). Toutefois, dans un environnement de production réel, des enregistrements d’énoncés appariés à leurs sémantiques correspondantes ne sont pas toujours disponibles ou suffisants pour entraîner un modèle E2E SLU. Dans cet article, nous proposons de fusionner un encodeur E2E ASR hautement optimisé (voix) et un encodeur de modèle linguistique pré-entraîné (langage) au sein d’un décodeur Transformer. Le modèle pré-entraîné unifié voix-langage (SLP) est progressivement amélioré à partir de données étiquetées limitées provenant d’un domaine cible, en utilisant une objectif de modèle de langage masqué conditionnel (MLM), permettant ainsi de générer efficacement, lors de l’inférence, une séquence d’intention, de type d’élément et de valeur d’élément pour une entrée vocale donnée. Les résultats expérimentaux sur deux corpus publics montrent que notre approche E2E SLU surpassent la méthode classique en cascade. Elle dépasse également les approches les plus avancées actuelles en E2E SLU, tout en nécessitant beaucoup moins de données appariées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp