LinCE 언어 변환 데이터 세트

LinCE는 언어 코드 변환 평가 데이터 세트(Linguistic Code-switching Evaluation Dataset)의 약자로, 언어 코드 변환 평가 데이터 세트입니다. 이 데이터 세트는 4가지 서로 다른 코드 전환 언어 쌍(스페인어-영어, 네팔어-영어, 힌디어-영어, 현대 표준 아랍어-이집트 아랍어)을 포함하는 10개의 코퍼스를 결합한 것입니다. 이 데이터 세트는 언어 식별, 개체명 인식, 품사 레이블링, 감정 분석이라는 네 가지 작업을 완료합니다. 이 데이터 세트는 LSTM, ELMo, 다국어 BERT를 포함한 다양한 인기 모델에 대한 점수도 제공하므로 NLP 커뮤니티는 이를 최신 시스템과 비교할 수 있습니다.