Génération neurale pour le tchèque : données et bases de comparaison

Nous présentons le premier jeu de données dédié à la génération de langage naturel (NLG) en bout-à-bout en tchèque, dans le domaine des restaurants, accompagné de plusieurs modèles de base performants utilisant l'approche séquence-à-séquence. Bien que la NLG pour les langues autres que l’anglais soit globalement peu explorée, le tchèque, en tant que langue morphologiquement riche, rend cette tâche encore plus difficile : en effet, le tchèque exige l’inflection des entités nommées, ce qui rend inopérants les mécanismes de délexicalisation ou de copie tels qu’ils sont habituellement appliqués, et la lexicalisation des sorties générées s’avère non triviale. Dans nos expériences, nous proposons deux approches différentes pour résoudre ce problème : (1) l’utilisation d’un modèle de langage neuronal pour sélectionner la forme inflexionnée correcte lors de la lexicalisation ; (2) un cadre de génération en deux étapes : notre modèle séquence-à-séquence génère une séquence entremêlée de lemmes et d’étiquettes morphologiques, qui sont ensuite inflexionnées par un générateur morphologique.