Une Approche Simple mais Difficile à Battre pour l'Augmentation de Données dans le Compréhension et la Génération du Langage Naturel

L’entraînement adversaire a été montré efficace pour renforcer la capacité de généralisation des représentations apprises. Toutefois, il nécessite généralement des calculs coûteux afin de déterminer la direction des perturbations injectées. Dans cet article, nous proposons un ensemble de stratégies simples mais efficaces d’augmentation de données, appelées « cutoff », dans lesquelles une partie de l’information contenue dans une phrase d’entrée est supprimée afin d’obtenir des vues restreintes (lors de la phase de fine-tuning). Notamment, ce processus repose uniquement sur un échantillonnage aléatoire, ce qui ajoute très peu de surcharge computationnelle. Une perte de cohérence basée sur la divergence de Jensen-Shannon est également utilisée pour intégrer de manière rigoureuse ces échantillons augmentés dans la fonction objectif d’entraînement. Pour valider l’efficacité des stratégies proposées, nous appliquons cutoff aux tâches de compréhension et de génération du langage naturel. Sur le benchmark GLUE, il est démontré que cutoff, malgré sa simplicité, atteint des performances équivalentes ou supérieures à plusieurs approches adversaires concurrentes. Nous étendons ensuite cutoff à la traduction automatique et observons des gains significatifs sur les scores BLEU (basés sur le modèle Transformer Base). En outre, cutoff surpasse de manière constante l’entraînement adversaire et atteint des résultats de pointe sur le jeu de données IWSLT2014 allemand-anglais.