11 天前

基于多注意力机制的泰语字符级分词

{Manabu Okumura, Hidetaka Kamigaito, Thodsaporn Chay-intr}
摘要

基于字符的分词模型在黏着语中得到了广泛应用,包括泰语,因其表现出色。这类模型通过分析字符序列来推断词边界。然而,与词、子词及字符簇等单元相比,字符序列中的单一字符本身并不具备实质语义。为此,本文提出一种新型泰语分词模型,该模型从字符序列中提取多种类型的信息,包括词、子词和字符簇等。通过引入多头注意力机制,模型能够有效捕捉字符与各类单元之间的关键关联,从而优化分词推理过程。实验结果表明,所提出的模型在性能上优于现有的各类先进泰语分词方法。

基于多注意力机制的泰语字符级分词 | 最新论文 | HyperAI超神经