HyperAIHyperAI
il y a 15 jours

Apprentissage d'une séquence à plusieurs séquences par cartographie en chaîne conditionnelle pour des signaux mixtes

Jing Shi, Xuankai Chang, Pengcheng Guo, Shinji Watanabe, Yusuke Fujita, Jiaming Xu, Bo Xu, Lei Xie
Apprentissage d'une séquence à plusieurs séquences par cartographie en chaîne conditionnelle pour des signaux mixtes
Résumé

Les modèles séquentiels à séquence (sequence-to-sequence) sont largement établis pour les applications pouvant être formulées comme une transformation d'une seule séquence d'entrée en une seule séquence de sortie. Dans ce travail, nous nous concentrons sur les problèmes de transduction séquentielle un-à-plusieurs, tels que l'extraction de plusieurs séquences sources séquentielles à partir d'une séquence mixte. Nous étendons le modèle séquentiel standard à un modèle multi-séquences conditionnel, qui modélise explicitement les relations entre plusieurs séquences de sortie à l'aide de la règle de chaîne probabiliste. Grâce à cette extension, notre modèle peut inférer les séquences de sortie de manière conditionnelle, une à une, en exploitant à la fois l'entrée et les séquences de sortie contextuelles déjà estimées. Ce modèle dispose par ailleurs d'un critère d'arrêt simple et efficace pour marquer la fin de la transduction, ce qui lui permet d'inférer un nombre variable de séquences de sortie. Nous choisissons les données audio comme domaine d'évaluation principal, car les données sonores observées sont souvent composées de plusieurs sources en raison de la nature du principe de superposition des ondes sonores. Des expériences menées sur plusieurs tâches différentes, notamment la séparation de sources audio et la reconnaissance de parole à plusieurs locuteurs, montrent que nos modèles multi-séquences conditionnels permettent des améliorations constantes par rapport aux modèles non conditionnels classiques.