HyperAI

LinCE-Sprachkonvertierungsdatensatz

Datum

vor 3 Jahren

Organisation

Veröffentlichungs-URL

ritual.uh.edu

Download-Hilfe
特色图像

LinCE steht für Linguistic Code-switching Evaluation Dataset, einen Datensatz zur Auswertung der Sprachcodekonvertierung. Der Datensatz kombiniert zehn Korpora, die vier verschiedene Code-Switching-Sprachpaare abdecken (Spanisch-Englisch, Nepali-Englisch, Hindi-Englisch und modernes Hocharabisch-Ägyptisches Arabisch). Der Datensatz erfüllt vier Aufgaben, nämlich Spracherkennung, Erkennung benannter Entitäten, Kennzeichnung von Wortarten und Stimmungsanalyse. Der Datensatz bietet auch Bewertungen für verschiedene beliebte Modelle, darunter LSTM, ELMo und mehrsprachiges BERT, sodass die NLP-Community einen Vergleich mit hochmodernen Systemen durchführen kann.