
摘要
如今,许多从业者在处理整个网络和大规模流量的基本自然语言处理(NLP)任务时,更快的方法对于节省时间和能源成本至关重要。近年来,GPU硬件的进步促使双向长短期记忆网络(Bi-LSTMs)成为获取每词向量表示的标准方法,这些向量表示通常作为命名实体识别(NER)等标记任务的输入(通常随后在条件随机场(CRF)中进行线性链预测)。尽管这些模型具有表达力强和准确性高的特点,但它们未能充分利用GPU并行计算的优势,限制了其计算效率。本文提出了一种比Bi-LSTMs更快的NER替代方案:迭代膨胀卷积神经网络(ID-CNNs),该网络在处理大上下文和结构化预测方面具有比传统卷积神经网络(CNNs)更强的能力。与LSTMs不同的是,即使面对并行计算,LSTMs对长度为N的句子进行顺序处理仍需要O(N)的时间,而ID-CNNs允许在整个文档中以固定深度并行运行卷积操作。我们描述了一种独特的网络结构、参数共享和训练程序组合,这使得测试时间速度提高了14-20倍,同时保持了与Bi-LSTM-CRF相当的准确性。此外,经过训练以从整个文档中聚合上下文信息的ID-CNNs在保持8倍测试时间速度优势的同时,准确率更高。