Das GEM-Benchmark: Natürliche Sprachgenerierung, ihre Bewertung und Metriken

Wir stellen GEM vor, eine lebende Benchmark für die natürlichsprachliche Generierung (NLG), ihre Bewertung und Metriken. Die Messung des Fortschritts in der NLG basiert auf einem ständig sich verändernden Ökosystem automatisierter Metriken, Datensätze und Standards der menschlichen Bewertung. Aufgrund dieser beweglichen Ziele werden neue Modelle oft noch auf abweichende, englischzentrierte Korpora mit etablierten, aber fehlerhaften Metriken evaluiert. Diese Diskrepanz erschwert es, die Grenzen der aktuellen Modelle zu identifizieren und Chancen für Fortschritte auszumachen. Um diese Einschränkung zu beheben, bietet GEM eine Umgebung, in der Modelle einfach auf eine breite Palette von Aufgaben angewendet und Evaluationsstrategien getestet werden können. Regelmäßige Aktualisierungen des Benchmarks werden dazu beitragen, dass die NLG-Forschung multilingualere Aspekte berücksichtigt und die Herausforderungen mit den Modellen weiterentwickelt. Dieses Papier dient als Beschreibung der Daten, für die wir im Rahmen unseres Workshops bei der ACL 2021 eine gemeinsame Aufgabe organisieren und zu deren Teilnahme wir die gesamte NLG-Gemeinschaft einladen.