HyperAIHyperAI
vor 2 Monaten

Das GEM-Benchmark: Natürliche Sprachgenerierung, ihre Bewertung und Metriken

Sebastian Gehrmann; Tosin Adewumi; Karmanya Aggarwal; Pawan Sasanka Ammanamanchi; Aremu Anuoluwapo; Antoine Bosselut; Khyathi Raghavi Chandu; Miruna Clinciu; Dipanjan Das; Kaustubh D. Dhole; Wanyu Du; Esin Durmus; Ondřej Dušek; Chris Emezue; Varun Gangal; Cristina Garbacea; Tatsunori Hashimoto; Yufang Hou; Yacine Jernite; Harsh Jhamtani; Yangfeng Ji; Shailza Jolly; Mihir Kale; Dhruv Kumar; Faisal Ladhak; Aman Madaan; Mounica Maddela; Khyati Mahajan; Saad Mahamood; Bodhisattwa Prasad Majumder; Pedro Henrique Martins; Angelina McMillan-Major; Simon Mille; Emiel van Miltenburg; Moin Nadeem; Shashi Narayan; Vitaly Nikolaev; Rubungo Andre Niyongabo; Salomey Osei; Ankur Parikh; Laura Perez-Beltrachini; Niranjan Ramesh Rao; Vikas Raunak; Juan Diego Rodriguez; Sashank Santhanam; João Sedoc; Thibault Sellam; Samira Shaikh; Anastasia Shimorina; Marco Antonio Sobrevilla Cabezudo; Hendrik Strobelt; Nishant Subramani; Wei Xu; Diyi Yang; Akhila Yerukola; Jiawei Zhou
Das GEM-Benchmark: Natürliche Sprachgenerierung, ihre Bewertung und Metriken
Abstract

Wir stellen GEM vor, eine lebende Benchmark für die natürlichsprachliche Generierung (NLG), ihre Bewertung und Metriken. Die Messung des Fortschritts in der NLG basiert auf einem ständig sich verändernden Ökosystem automatisierter Metriken, Datensätze und Standards der menschlichen Bewertung. Aufgrund dieser beweglichen Ziele werden neue Modelle oft noch auf abweichende, englischzentrierte Korpora mit etablierten, aber fehlerhaften Metriken evaluiert. Diese Diskrepanz erschwert es, die Grenzen der aktuellen Modelle zu identifizieren und Chancen für Fortschritte auszumachen. Um diese Einschränkung zu beheben, bietet GEM eine Umgebung, in der Modelle einfach auf eine breite Palette von Aufgaben angewendet und Evaluationsstrategien getestet werden können. Regelmäßige Aktualisierungen des Benchmarks werden dazu beitragen, dass die NLG-Forschung multilingualere Aspekte berücksichtigt und die Herausforderungen mit den Modellen weiterentwickelt. Dieses Papier dient als Beschreibung der Daten, für die wir im Rahmen unseres Workshops bei der ACL 2021 eine gemeinsame Aufgabe organisieren und zu deren Teilnahme wir die gesamte NLG-Gemeinschaft einladen.

Das GEM-Benchmark: Natürliche Sprachgenerierung, ihre Bewertung und Metriken | Neueste Forschungsarbeiten | HyperAI