2ヶ月前

GEM ベンチマーク:自然言語生成、その評価および指標

Sebastian Gehrmann; Tosin Adewumi; Karmanya Aggarwal; Pawan Sasanka Ammanamanchi; Aremu Anuoluwapo; Antoine Bosselut; Khyathi Raghavi Chandu; Miruna Clinciu; Dipanjan Das; Kaustubh D. Dhole; Wanyu Du; Esin Durmus; Ondřej Dušek; Chris Emezue; Varun Gangal; Cristina Garbacea; Tatsunori Hashimoto; Yufang Hou; Yacine Jernite; Harsh Jhamtani; Yangfeng Ji; Shailza Jolly; Mihir Kale; Dhruv Kumar; Faisal Ladhak; Aman Madaan; Mounica Maddela; Khyati Mahajan; Saad Mahamood; Bodhisattwa Prasad Majumder; Pedro Henrique Martins; Angelina McMillan-Major; Simon Mille; Emiel van Miltenburg; Moin Nadeem; Shashi Narayan; Vitaly Nikolaev; Rubungo Andre Niyongabo; Salomey Osei; Ankur Parikh; Laura Perez-Beltrachini; Niranjan Ramesh Rao; Vikas Raunak; Juan Diego Rodriguez; Sashank Santhanam; João Sedoc; Thibault Sellam; Samira Shaikh; Anastasia Shimorina; Marco Antonio Sobrevilla Cabezudo; Hendrik Strobelt; Nishant Subramani; Wei Xu; Diyi Yang; Akhila Yerukola; Jiawei Zhou
GEM ベンチマーク:自然言語生成、その評価および指標
要約

私たちは、自然言語生成(NLG)、その評価、および指標のための動的なベンチマークであるGEMを紹介します。NLGにおける進歩の測定は、自動化された指標、データセット、および人間による評価基準からなる常に進化するエコシステムに依存しています。この移り変わる目標により、新しいモデルはしばしば既存の英語中心のコーパスで評価され、確立されているが欠陥のある指標を使用することがあります。このような乖離があると、現在のモデルの限界を特定し、進歩の機会を見つけることが困難になります。この問題に対処するために、GEMはモデルが広範なタスクに容易に適用され、評価戦略がテストされる環境を提供します。ベンチマークの定期的な更新により、NLG研究がより多言語化され、モデルとともに課題が進化することを支援します。本論文は、私たちがACL 2021ワークショップで共有タスクとして組織しているデータセットについて説明し、全NLGコミュニティへの参加を呼びかけています。