HyperAIHyperAI
il y a 16 jours

Transduction de séquences efficace par prédiction conjointe des tokens et des durées

Hainan Xu, Fei Jia, Somshubra Majumdar, He Huang, Shinji Watanabe, Boris Ginsburg
Transduction de séquences efficace par prédiction conjointe des tokens et des durées
Résumé

Ce papier présente une nouvelle architecture appelée Token-and-Duration Transducer (TDT) pour les tâches de transformation de séquences. La TDT étend les architectures conventionnelles de Transducer à base de RNN en prédisant simultanément un token et sa durée, c’est-à-dire le nombre de cadres d’entrée couverts par le token émis. Cette fonctionnalité est réalisée grâce à un réseau conjoint à deux sorties, chacune normalisée indépendamment afin de générer des distributions sur les tokens et les durées. Lors de l’inférence, les modèles TDT peuvent sauter des cadres d’entrée en se basant sur la durée prédite, ce qui les rend nettement plus rapides que les Transducers conventionnels qui traitent le vecteur de sortie du encodeur cadre par cadre. Les modèles TDT atteignent à la fois une meilleure précision et une inférence considérablement plus rapide que les Transducers conventionnels sur diverses tâches de transformation de séquences. Pour la reconnaissance vocale, les modèles TDT offrent une meilleure précision et une inférence jusqu’à 2,82 fois plus rapide que les Transducers classiques. Pour la traduction vocale, ils obtiennent une amélioration absolue de plus de 1 point BLEU sur le test MUST-C par rapport aux Transducers classiques, tout en étant 2,27 fois plus rapides à l’inférence. Dans les tâches de classification d’intention vocale et d’extraction de champs (slot filling), les modèles TDT améliorent la précision de l’intention jusqu’à plus de 1 % (absolu) par rapport aux modèles classiques, tout en étant jusqu’à 1,28 fois plus rapides. Notre implémentation du modèle TDT sera rendue open source dans le cadre du toolkit NeMo (https://github.com/NVIDIA/NeMo).

Transduction de séquences efficace par prédiction conjointe des tokens et des durées | Articles de recherche récents | HyperAI