17 天前

信息抽取研究:请关注分词(Tokenization)!

Christos Theodoropoulos, Marie-Francine Moens
信息抽取研究:请关注分词(Tokenization)!
摘要

当前关于使用字符而非分词文本作为深度学习模型输入的优势与权衡的研究已取得显著进展。新型无分词模型摒弃了传统的分词步骤,但其实际效率仍不明确。此外,在序列标注任务中,分词的影响尚未得到充分探索。为此,本文研究了在文档信息提取过程中分词所带来的影响,并对基于子词与基于字符的模型进行了比较研究与分析。具体而言,研究聚焦于生物医学文本中的信息抽取(Information Extraction, IE)任务。研究的主要成果具有双重意义:一方面,合理的分词模式可引入归纳偏置,从而实现当前最优的性能表现;另一方面,基于字符的模型也展现出良好的效果。因此,向无分词信息抽取模型的过渡具备可行性。