Apprentissage séquentiel à séquence régularisé par attention pour le défi E2E NLG
Cet article décrit notre système utilisé pour le défi de génération de langage naturel (NLG) en bout-à-bout (end-to-end, E2E). Ce défi repose sur un nouveau jeu de données dédié aux systèmes de dialogue oraux dans le domaine des restaurants, caractérisé par une richesse lexicale et une variation syntaxique accrues, et qui impose une sélection de contenu (Novikova et al., 2017). Pour relever ce défi, nous utilisons un modèle d’apprentissage séquence-à-séquence amélioré par le CAEncoder (Zhang et al., 2017) et proposons un régularisateur d’attention visant à répartir uniformément les poids d’attention sur les mots d’entrée tout en maîtrisant le problème de surajustement (overfitting). Sans aucune configuration spécifique, notre système obtient des performances très prometteuses. En particulier, il atteint un score ROUGE-L de 0,7083, le meilleur résultat parmi tous les systèmes principaux soumis.