2 个月前

GEM基准:自然语言生成、其评估和度量标准

Sebastian Gehrmann; Tosin Adewumi; Karmanya Aggarwal; Pawan Sasanka Ammanamanchi; Aremu Anuoluwapo; Antoine Bosselut; Khyathi Raghavi Chandu; Miruna Clinciu; Dipanjan Das; Kaustubh D. Dhole; Wanyu Du; Esin Durmus; Ondřej Dušek; Chris Emezue; Varun Gangal; Cristina Garbacea; Tatsunori Hashimoto; Yufang Hou; Yacine Jernite; Harsh Jhamtani; Yangfeng Ji; Shailza Jolly; Mihir Kale; Dhruv Kumar; Faisal Ladhak; Aman Madaan; Mounica Maddela; Khyati Mahajan; Saad Mahamood; Bodhisattwa Prasad Majumder; Pedro Henrique Martins; Angelina McMillan-Major; Simon Mille; Emiel van Miltenburg; Moin Nadeem; Shashi Narayan; Vitaly Nikolaev; Rubungo Andre Niyongabo; Salomey Osei; Ankur Parikh; Laura Perez-Beltrachini; Niranjan Ramesh Rao; Vikas Raunak; Juan Diego Rodriguez; Sashank Santhanam; João Sedoc; Thibault Sellam; Samira Shaikh; Anastasia Shimorina; Marco Antonio Sobrevilla Cabezudo; Hendrik Strobelt; Nishant Subramani; Wei Xu; Diyi Yang; Akhila Yerukola; Jiawei Zhou
GEM基准:自然语言生成、其评估和度量标准
摘要

我们介绍了一种名为GEM的动态基准,用于自然语言生成(NLG)、其评估和度量。衡量NLG领域的进展依赖于一个不断演化的生态系统,包括自动化度量、数据集和人类评估标准。由于这一目标在不断变化,新的模型通常仍然使用以英语为中心且存在缺陷但已广为接受的数据集进行评估。这种脱节使得识别当前模型的局限性和进步机会变得困难。为了解决这一问题,GEM提供了一个环境,在该环境中,模型可以轻松应用于广泛的任务,并测试不同的评估策略。基准的定期更新将有助于NLG研究变得更加多语言化,并随着模型的发展而进化挑战。本文作为我们在ACL 2021研讨会组织的一项共享任务的数据描述,并邀请整个NLG社区参与其中。

GEM基准:自然语言生成、其评估和度量标准 | 最新论文 | HyperAI超神经