12 天前

ThaiLMCut:面向泰语分词的无监督预训练

{Hinrich Sch{\u}tze, Michael Matuschek, Liliana Mamani Sanchez, Ivan Bilan, Suteera Seeha, Johannes Huber}
ThaiLMCut:面向泰语分词的无监督预训练
摘要

我们提出了一种名为ThaiLMCut的半监督泰国语分词方法,该方法利用双向字符语言模型(LM)从无标注数据中挖掘有用的语言学知识。在语言模型于大规模无标注语料上完成训练后,将其嵌入层和循环层的权重迁移至一个有监督的分词模型中,并在分词任务上继续进行微调。实验结果表明,引入语言模型始终能够带来性能提升,尤其在标注数据较少的情况下,F1分数最高可提升2.02%。即使在大规模标注数据集上,仍能获得小幅但稳定的性能增益。此外,该方法在跨领域(out-of-domain)场景下也表现出显著优势,F1分数最高提升达3.13%。最终,我们证明ThaiLMCut能够超越其他开源的先进模型,在标准基准数据集InterBEST2009上取得98.78%的F1分数,达到当前最佳水平。

ThaiLMCut:面向泰语分词的无监督预训练 | 最新论文 | HyperAI超神经