16 天前

超越字符:子词级别的语素分割

{Andre F. T. Martins, Ben Peters}
超越字符:子词级别的语素分割
摘要

本文介绍了DeepSPIN团队在SIGMORPHON 2022共享任务——词素分割(Morpheme Segmentation)中的参赛成果。我们共提交了三项参赛作品,全部针对词级(word-level)子任务。首先,我们表明基于entmax的稀疏序列到序列模型相较于传统的softmax模型在性能上实现了显著提升,这一结果与其他任务中的发现一致。其次,我们挑战了形态学任务模型应在字符层面进行训练的普遍假设,提出了一种基于Transformer的模型,该模型将词素作为由一元语言模型生成的子词(subwords)序列进行建模。该基于子词的Transformer模型在性能上超越了所有字符级模型,并成功夺得词级子任务的冠军。尽管我们未正式提交句级(sentence-level)子任务的参赛作品,但实验表明,该子词建模方法在句级任务中同样表现出极高的有效性。

超越字符:子词级别的语素分割 | 最新论文 | HyperAI超神经