
摘要
我们提出了一种名为ThaiLMCut的半监督泰国语分词方法,该方法利用双向字符语言模型(LM)从无标注数据中挖掘有用的语言学知识。在语言模型于大规模无标注语料上完成训练后,将其嵌入层和循环层的权重迁移至一个有监督的分词模型中,并在分词任务上继续进行微调。实验结果表明,引入语言模型始终能够带来性能提升,尤其在标注数据较少的情况下,F1分数最高可提升2.02%。即使在大规模标注数据集上,仍能获得小幅但稳定的性能增益。此外,该方法在跨领域(out-of-domain)场景下也表现出显著优势,F1分数最高提升达3.13%。最终,我们证明ThaiLMCut能够超越其他开源的先进模型,在标准基准数据集InterBEST2009上取得98.78%的F1分数,达到当前最佳水平。