1 个月前

学习用于序列标注的词内部结构

Yingwei Xin; Ethan Hart; Vibhuti Mahajan; Jean-David Ruvini
学习用于序列标注的词内部结构
摘要

基于字符的神经模型最近在许多自然语言处理(NLP)任务中证明了其非常有用。然而,在学习句子和单词表示的方法之间存在复杂度上的差距。大多数用于学习句子表示的字符模型都是深层且复杂的,而用于学习单词表示的字符模型则较为浅层且简单。尽管在学习字符嵌入方面已经进行了大量研究,但哪种架构最适合捕捉从字符到单词的表示仍然不清楚。为了解决这些问题,我们首先探讨了学习单词和句子表示方法之间的差距。我们对不同的最先进卷积模型进行了详细的实验和比较,并分析了这些模型组成部分的优点和缺点。此外,我们提出了IntNet,这是一种漏斗形的宽卷积神经架构,没有下采样过程,旨在通过组合有限监督训练语料库中的字符来学习单词内部结构的表示。我们在六个序列标注数据集上评估了所提出的模型,包括命名实体识别、词性标注和句法组块划分。深入分析表明,IntNet显著优于其他字符嵌入模型,并且在不依赖任何外部知识或资源的情况下取得了新的最先进性能。

学习用于序列标注的词内部结构 | 最新论文 | HyperAI超神经