LinCE 语言转换数据集

日期

2 年前

机构

发布地址

ritual.uh.edu

下载帮助
特色图像

LinCE 全称 Linguistic Code-switching Evaluation Dataset,是一个语言代码转换评估数据集。该数据集结合了十个语料库,涵盖四种不同的代码转换语言对(西班牙语-英语、尼泊尔语-英语、印地语-英语和现代标准阿拉伯语-埃及阿拉伯语)。该数据集完成四项任务,即语言识别、命名实体识别、语音部分标注和情绪分析。数据集还提供了不同流行型号的分数,包括 LSTM 、 ELMo 和多语言 BERT,以便 NLP 社区可以与最先进的系统进行比较。