Le Benchmark GEM : Génération de Langue Naturelle, son Évaluation et ses Métriques

Nous présentons GEM, une référence vivante pour la génération de langage naturel (NLG), son évaluation et ses métriques. La mesure des progrès en NLG repose sur un écosystème en constante évolution de métriques automatisées, de jeux de données et de normes d'évaluation humaine. En raison de cette cible mobile, les nouveaux modèles sont souvent encore évalués sur des corpus anglocentriques divergents avec des métriques bien établies, mais imparfaites. Cette déconnexion rend difficile l'identification des limites des modèles actuels et des opportunités de progrès. Pour remédier à cette limitation, GEM fournit un environnement dans lequel les modèles peuvent être facilement appliqués à un large ensemble de tâches et où les stratégies d'évaluation peuvent être testées. Les mises à jour régulières du benchmark aideront la recherche en NLG à devenir plus multilingue et à faire évoluer le défi en parallèle avec les modèles. Ce document sert de description des données pour lesquelles nous organisons une tâche commune lors de notre atelier ACL 2021, et à laquelle nous invitons toute la communauté NLG à participer.