17 天前

CalBERT - 基于BERT的混合语言自适应表示

{Ashwini M Joshi, Deeksha D, Aronya Baksy, Ansh Sarkar, Aditeya Baral}
CalBERT - 基于BERT的混合语言自适应表示
摘要

代码混用语言(code-mixed language)是指在书写或口语中融合两种或多种语言变体的语言类型。由于此类语言的表达不具一致性,传统基于单一语言的处理方法难以有效应对代码混用文本的分析任务。为此,本文提出一种新颖方法,通过在Transformer模型中引入一个额外的预训练步骤——“孪生预训练”(Siamese Pre-Training),使预训练的单语Transformer模型能够仅凭借少量代码混用数据,便有效适应代码混用语言的语义表征。该方法在印度语言情感分析(Sentiment Analysis for Indian Languages, SAIL)数据集上的实验结果表明,其F1分数超越现有最先进水平,最高提升达5.1个百分点;同时,在IndicGLUE产品评论数据集上,该方法也取得了当前最优的准确率,较基准模型提升0.4个百分点。