HyperAIHyperAI
il y a 13 jours

Pré-entraînement de traduction automatique pour la génération de texte à partir de données – Une étude de cas en tchèque

Mihir Kale, Scott Roy
Pré-entraînement de traduction automatique pour la génération de texte à partir de données – Une étude de cas en tchèque
Résumé

Bien qu’un vaste corpus de recherches étudie les méthodes d’apprentissage profond pour la génération de texte à partir de données structurées, presque toutes se concentrent exclusivement sur la langue anglaise. Dans cet article, nous examinons l’efficacité de la pré-formation basée sur la traduction automatique pour la génération de texte à partir de données dans des langues non anglaises. Étant donné que les données structurées sont généralement exprimées en anglais, la génération de texte dans d’autres langues implique des éléments de traduction, de translittération et de copie — des composantes déjà intégrées dans les systèmes de traduction automatique par réseaux neuronaux. En outre, comme les corpus de données à texte sont généralement de petite taille, cette tâche peut grandement bénéficier de la pré-formation. À partir de nos expérimentations menées sur le tchèque, une langue morphologiquement complexe, nous constatons que la pré-formation permet d’entraîner des modèles end-to-end avec une amélioration significative des performances, selon les évaluations automatiques et les évaluations humaines. Nous montrons également que cette approche présente plusieurs propriétés souhaitables, notamment une meilleure performance dans des scénarios à faible quantité de données et une robustesse face à des valeurs de champs inconnues.