17 天前
MuCoT:面向低资源语言问答任务的多语言对比训练
Gokul Karthik Kumar, Abhishek Singh Gehlot, Sahal Shaji Mullappilly, Karthik Nandakumar

摘要
近年来,随着基于Transformer的模型(如BERT)的出现,英语问答(QA)系统的准确率得到了显著提升。这类模型首先在大规模英语语料库上以自监督方式预训练,随后再利用海量英语QA数据集(如SQuAD)进行微调。然而,对于大多数其他语言而言,尚缺乏同等规模的QA数据集。为此,多语言BERT模型(mBERT)常被用于将高资源语言的知识迁移到低资源语言中。由于mBERT在包含多种语言的海量文本语料上进行预训练,其通常能够为不同语言的词元(tokens)学习到语言无关的嵌入表示。然而,由于训练数据稀缺,直接针对低资源语言训练基于mBERT的QA系统仍面临挑战。在本研究中,我们通过将目标语言的QA样本翻译并音译至其他语言来扩充数据,并利用这些增强后的数据对已在英语上预训练的mBERT模型进行微调。在Google ChAII数据集上的实验表明,使用同语系语言的翻译数据进行微调可显著提升问答性能;而采用跨语系语言的翻译数据时,性能则出现下降。进一步地,我们发现在微调过程中引入翻译后的问题-上下文特征对之间的对比损失(contrastive loss),能够有效缓解跨语系翻译带来的性能下降,并实现小幅性能提升。本工作的代码已公开,可访问:https://github.com/gokulkarthik/mucot。