HyperAIHyperAI
il y a 2 mois

Le Benchmark GEM : Génération de Langue Naturelle, son Évaluation et ses Métriques

Sebastian Gehrmann; Tosin Adewumi; Karmanya Aggarwal; Pawan Sasanka Ammanamanchi; Aremu Anuoluwapo; Antoine Bosselut; Khyathi Raghavi Chandu; Miruna Clinciu; Dipanjan Das; Kaustubh D. Dhole; Wanyu Du; Esin Durmus; Ondřej Dušek; Chris Emezue; Varun Gangal; Cristina Garbacea; Tatsunori Hashimoto; Yufang Hou; Yacine Jernite; Harsh Jhamtani; Yangfeng Ji; Shailza Jolly; Mihir Kale; Dhruv Kumar; Faisal Ladhak; Aman Madaan; Mounica Maddela; Khyati Mahajan; Saad Mahamood; Bodhisattwa Prasad Majumder; Pedro Henrique Martins; Angelina McMillan-Major; Simon Mille; Emiel van Miltenburg; Moin Nadeem; Shashi Narayan; Vitaly Nikolaev; Rubungo Andre Niyongabo; Salomey Osei; Ankur Parikh; Laura Perez-Beltrachini; Niranjan Ramesh Rao; Vikas Raunak; Juan Diego Rodriguez; Sashank Santhanam; João Sedoc; Thibault Sellam; Samira Shaikh; Anastasia Shimorina; Marco Antonio Sobrevilla Cabezudo; Hendrik Strobelt; Nishant Subramani; Wei Xu; Diyi Yang; Akhila Yerukola; Jiawei Zhou
Le Benchmark GEM : Génération de Langue Naturelle, son Évaluation et ses Métriques
Résumé

Nous présentons GEM, une référence vivante pour la génération de langage naturel (NLG), son évaluation et ses métriques. La mesure des progrès en NLG repose sur un écosystème en constante évolution de métriques automatisées, de jeux de données et de normes d'évaluation humaine. En raison de cette cible mobile, les nouveaux modèles sont souvent encore évalués sur des corpus anglocentriques divergents avec des métriques bien établies, mais imparfaites. Cette déconnexion rend difficile l'identification des limites des modèles actuels et des opportunités de progrès. Pour remédier à cette limitation, GEM fournit un environnement dans lequel les modèles peuvent être facilement appliqués à un large ensemble de tâches et où les stratégies d'évaluation peuvent être testées. Les mises à jour régulières du benchmark aideront la recherche en NLG à devenir plus multilingue et à faire évoluer le défi en parallèle avec les modèles. Ce document sert de description des données pour lesquelles nous organisons une tâche commune lors de notre atelier ACL 2021, et à laquelle nous invitons toute la communauté NLG à participer.

Le Benchmark GEM : Génération de Langue Naturelle, son Évaluation et ses Métriques | Articles de recherche récents | HyperAI