LinCE は、Linguistic Code-switching Evaluation Dataset の略で、言語コード スイッチング評価データ セットです。このデータセットは、4 つの異なるコード交換言語ペア (スペイン語 - 英語、ネパール語 - 英語、ヒンディー語 - 英語、現代標準アラビア語 - エジプト語アラビア語) をカバーする 10 個のコーパスを組み合わせています。このデータセットは、言語認識、固有表現認識、音声部分の注釈、感情分析という 4 つのタスクを実行します。このデータセットは、LSTM、ELMo、多言語 BERT などのさまざまな人気モデルのスコアも提供するため、NLP コミュニティは最先端のシステムと比較できます。