2달 전

GEM 벤치마크: 자연어 생성, 그 평가 및 지표

Sebastian Gehrmann; Tosin Adewumi; Karmanya Aggarwal; Pawan Sasanka Ammanamanchi; Aremu Anuoluwapo; Antoine Bosselut; Khyathi Raghavi Chandu; Miruna Clinciu; Dipanjan Das; Kaustubh D. Dhole; Wanyu Du; Esin Durmus; Ondřej Dušek; Chris Emezue; Varun Gangal; Cristina Garbacea; Tatsunori Hashimoto; Yufang Hou; Yacine Jernite; Harsh Jhamtani; Yangfeng Ji; Shailza Jolly; Mihir Kale; Dhruv Kumar; Faisal Ladhak; Aman Madaan; Mounica Maddela; Khyati Mahajan; Saad Mahamood; Bodhisattwa Prasad Majumder; Pedro Henrique Martins; Angelina McMillan-Major; Simon Mille; Emiel van Miltenburg; Moin Nadeem; Shashi Narayan; Vitaly Nikolaev; Rubungo Andre Niyongabo; Salomey Osei; Ankur Parikh; Laura Perez-Beltrachini; Niranjan Ramesh Rao; Vikas Raunak; Juan Diego Rodriguez; Sashank Santhanam; João Sedoc; Thibault Sellam; Samira Shaikh; Anastasia Shimorina; Marco Antonio Sobrevilla Cabezudo; Hendrik Strobelt; Nishant Subramani; Wei Xu; Diyi Yang; Akhila Yerukola; Jiawei Zhou
GEM 벤치마크: 자연어 생성, 그 평가 및 지표
초록

우리는 자연어 생성(NLG), 그 평가 및 측정 지표를 위한 살아있는 벤치마크인 GEM을 소개합니다. NLG의 진전을 측정하는 것은 자동화된 지표, 데이터셋, 그리고 인간 평가 기준으로 구성된 끊임없이 변화하는 생태계에 의존하고 있습니다. 이러한 이동 목표로 인해 새로운 모델들은 종종 이미 확립되었지만 결함이 있는 지표를 사용하여 영어 중심의 다양한 말뭉치에서 평가됩니다. 이러한 차이는 현재 모델들의 제한점을 식별하고 발전의 기회를 찾는 것을 어렵게 만듭니다. 이 제한을 해결하기 위해 GEM은 모델들이 쉽게 다양한 작업에 적용될 수 있고 평가 전략이 테스트될 수 있는 환경을 제공합니다. 벤치마크의 정기적인 업데이트는 NLG 연구가 더 다국어화되고 모델과 함께 도전 과제가 진화하도록 돕습니다. 본 논문은 우리 ACL 2021 워크숍에서 공유 작업을 조직하고 있으며, 전체 NLG 커뮤니티에게 참여를 초대하는 데이터의 설명서 역할을 합니다.

GEM 벤치마크: 자연어 생성, 그 평가 및 지표 | 최신 연구 논문 | HyperAI초신경