2달 전

MASSIVE: 1백만 예제를 포함한 51개의 유형학적으로 다양한 언어로 구성된 다국어 자연어 이해 데이터셋

Jack FitzGerald; Christopher Hench; Charith Peris; Scott Mackie; Kay Rottmann; Ana Sanchez; Aaron Nash; Liam Urbach; Vishesh Kakarala; Richa Singh; Swetha Ranganath; Laurie Crist; Misha Britan; Wouter Leeuwis; Gokhan Tur; Prem Natarajan

논문 세부 정보 보기

MASSIVE: 1백만 예제를 포함한 51개의 유형학적으로 다양한 언어로 구성된 다국어 자연어 이해 데이터셋

초록

우리는 다국어 아마존 슬롯 리소스 패키지(SLURP)를 활용한 슬롯 채우기, 의도 분류, 및 가상 비서 평가를 위한 MASSIVE 데이터셋을 소개합니다. MASSIVE는 51개 언어, 18개 도메인, 60개 의도, 그리고 55개 슬롯을 포함하는 100만 개의 실제적인, 병렬로 표시된, 라벨링된 가상 비서 발화 데이터를 담고 있습니다. MASSIVE는 영어만 사용된 SLURP 데이터셋을 29개의 어족에서 선정된 50개의 유형학적으로 다양한 언어로 전문 번역가들이 현지화하여 생성되었습니다. 또한 우리는 XLM-R과 mT5에 대한 모델링 결과를 제시하며, 이에는 정확한 일치도(Exact Match Accuracy), 의도 분류 정확도(Intent Classification Accuracy), 그리고 슬롯 채우기 F1 점수(Slot-filling F1 Score)가 포함됩니다. 우리는 이 데이터셋, 모델링 코드, 그리고 모델을 공개적으로 배포하였습니다.