LinCE-Sprachkonvertierungsdatensatz
Datum
vor 3 Jahren
Veröffentlichungs-URL
Tags
Kategorien

LinCE steht für Linguistic Code-switching Evaluation Dataset, einen Datensatz zur Auswertung der Sprachcodekonvertierung. Der Datensatz kombiniert zehn Korpora, die vier verschiedene Code-Switching-Sprachpaare abdecken (Spanisch-Englisch, Nepali-Englisch, Hindi-Englisch und modernes Hocharabisch-Ägyptisches Arabisch). Der Datensatz erfüllt vier Aufgaben, nämlich Spracherkennung, Erkennung benannter Entitäten, Kennzeichnung von Wortarten und Stimmungsanalyse. Der Datensatz bietet auch Bewertungen für verschiedene beliebte Modelle, darunter LSTM, ELMo und mehrsprachiges BERT, sodass die NLP-Community einen Vergleich mit hochmodernen Systemen durchführen kann.