Ensemble De Données De Conversion Linguistique LinCE
Date
URL de publication

LinCE signifie Linguistic Code-switching Evaluation Dataset, qui est un ensemble de données d'évaluation de conversion de code de langue. L'ensemble de données combine dix corpus couvrant quatre paires de langues à changement de code différentes (espagnol-anglais, népalais-anglais, hindi-anglais et arabe standard moderne-arabe égyptien). L'ensemble de données effectue quatre tâches, à savoir l'identification de la langue, la reconnaissance des entités nommées, l'étiquetage des parties du discours et l'analyse des sentiments. L'ensemble de données fournit également des scores pour différents modèles populaires, notamment LSTM, ELMo et BERT multilingue, afin que la communauté NLP puisse se comparer aux systèmes de pointe.