2 个月前

基于 BERT 的英印双语机器阅读理解

Somil Gupta; Nilesh Khade
基于 BERT 的英印双语机器阅读理解
摘要

多语言机器阅读理解(MMC)是一种问答(QA)子任务,涉及从给定的文本片段中引用问题的答案,其中问题和文本片段可以使用不同的语言。最近发布的多语言版BERT(m-BERT),预训练了104种语言,在零样本和微调设置下均表现出色;然而,它尚未应用于英-印地语的MMC任务。因此,本文介绍了我们在零样本、单语(例如,印地语问题-印地语片段)和跨语言(例如,英语问题-印地语片段)微调设置下使用m-BERT进行MMC实验的结果。这些模型变体在所有可能的多语言设置中进行了评估,并与当前针对这些语言的最佳顺序问答系统的结果进行了比较。实验表明,经过微调后的m-BERT在先前模型使用的两个数据集的所有评估设置中均提高了性能,从而确立了基于m-BERT的MMC作为英-印地语的新最先进水平。我们还发布了最近发布的XQuAD数据集扩展版本上的实验结果,并建议将其作为未来研究的评估基准。

基于 BERT 的英印双语机器阅读理解 | 最新论文 | HyperAI超神经