HyperAIHyperAI

Command Palette

Search for a command to run...

Transduction de séquences efficace par prédiction conjointe des tokens et des durées

Hainan Xu Fei Jia Somshubra Majumdar He Huang Shinji Watanabe Boris Ginsburg

Résumé

Ce papier présente une nouvelle architecture appelée Token-and-Duration Transducer (TDT) pour les tâches de transformation de séquences. La TDT étend les architectures conventionnelles de Transducer à base de RNN en prédisant simultanément un token et sa durée, c’est-à-dire le nombre de cadres d’entrée couverts par le token émis. Cette fonctionnalité est réalisée grâce à un réseau conjoint à deux sorties, chacune normalisée indépendamment afin de générer des distributions sur les tokens et les durées. Lors de l’inférence, les modèles TDT peuvent sauter des cadres d’entrée en se basant sur la durée prédite, ce qui les rend nettement plus rapides que les Transducers conventionnels qui traitent le vecteur de sortie du encodeur cadre par cadre. Les modèles TDT atteignent à la fois une meilleure précision et une inférence considérablement plus rapide que les Transducers conventionnels sur diverses tâches de transformation de séquences. Pour la reconnaissance vocale, les modèles TDT offrent une meilleure précision et une inférence jusqu’à 2,82 fois plus rapide que les Transducers classiques. Pour la traduction vocale, ils obtiennent une amélioration absolue de plus de 1 point BLEU sur le test MUST-C par rapport aux Transducers classiques, tout en étant 2,27 fois plus rapides à l’inférence. Dans les tâches de classification d’intention vocale et d’extraction de champs (slot filling), les modèles TDT améliorent la précision de l’intention jusqu’à plus de 1 % (absolu) par rapport aux modèles classiques, tout en étant jusqu’à 1,28 fois plus rapides. Notre implémentation du modèle TDT sera rendue open source dans le cadre du toolkit NeMo (https://github.com/NVIDIA/NeMo).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp