HyperAI

摘要

我们提出了一种名为ThaiLMCut的半监督泰国语分词方法，该方法利用双向字符语言模型（LM）从无标注数据中挖掘有用的语言学知识。在语言模型于大规模无标注语料上完成训练后，将其嵌入层和循环层的权重迁移至一个有监督的分词模型中，并在分词任务上继续进行微调。实验结果表明，引入语言模型始终能够带来性能提升，尤其在标注数据较少的情况下，F1分数最高可提升2.02%。即使在大规模标注数据集上，仍能获得小幅但稳定的性能增益。此外，该方法在跨领域（out-of-domain）场景下也表现出显著优势，F1分数最高提升达3.13%。最终，我们证明ThaiLMCut能够超越其他开源的先进模型，在标准基准数据集InterBEST2009上取得98.78%的F1分数，达到当前最佳水平。

基准测试

基准	方法	指标
thai-word-tokenization-on-best-2010	ThaiLMCut	F1-Score: 0.9878

ThaiLMCut：面向泰语分词的无监督预训练

{Hinrich Sch{\u}tze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

ThaiLMCut：面向泰语分词的无监督预训练

{Hinrich Sch{\u}tze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters