2 个月前

CharacterBERT:从字符层面调和ELMo和BERT以实现词级别的开放词汇表示

Hicham El Boukkouri; Olivier Ferret; Thomas Lavergne; Hiroshi Noji; Pierre Zweigenbaum; Junichi Tsujii
CharacterBERT:从字符层面调和ELMo和BERT以实现词级别的开放词汇表示
摘要

由于BERT带来的显著改进,许多近期的表示模型采用了Transformer架构作为其主要构建模块,尽管词片段(wordpiece)分词系统并非与Transformer的概念内在相关,但这些模型依然继承了这一系统。虽然该系统被认为在字符的灵活性和完整单词的效率之间取得了良好的平衡,但在为特定领域(如医疗领域)构建模型时,使用来自通用领域的预定义词片段词汇表并不总是合适的。此外,采用词片段分词将关注点从单词级别转移到子词(subword)级别,使得模型在概念上更加复杂,并且在实际应用中可能不太方便。基于这些原因,我们提出了CharacterBERT,这是一种新的BERT变体,完全放弃了词片段系统,而是使用字符卷积神经网络(Character-CNN)模块通过参考字符来表示整个单词。我们展示了这种新模型在多种医疗领域任务中提高了BERT的性能,同时生成了稳健的、单词级别的和开放词汇表的表示。

CharacterBERT:从字符层面调和ELMo和BERT以实现词级别的开放词汇表示 | 最新论文 | HyperAI超神经