2달 전

빠르고 정확한 엔티티 인식을 위한 반복된 딜레이션 컨볼루션

Emma Strubell; Patrick Verga; David Belanger; Andrew McCallum
빠르고 정확한 엔티티 인식을 위한 반복된 딜레이션 컨볼루션
초록

오늘날 많은 실무자들이 전체 웹과 대용량 트래픽에 기본적인 자연어 처리(NLP)를 수행할 때, 시간과 에너지 비용을 절약하기 위해 더 빠른 방법이 필수적입니다. 최근의 GPU 하드웨어 발전으로 인해 양방향 LSTM(bi-directional LSTM)이 NER와 같은 라벨링 작업의 입력으로 사용되는 토큰별 벡터 표현을 얻기 위한 표준 방법으로 등장하였습니다(일반적으로 선형 체인 CRF(linear-chain CRF)에서 예측 단계를 거칩니다). 이러한 모델은 표현력이 뛰어나고 정확하지만, GPU 병렬 처리를 완전히 활용하지 못하여 계산 효율성이 제한됩니다. 본 논문에서는 NER에 대한 Bi-LSTM의 더 빠른 대안으로, 큰 문맥과 구조화된 예측에 대해 전통적인 CNN보다 더 우수한 능력을 가진 반복 확장 합성곱 신경망(ID-CNNs, Iterated Dilated Convolutional Neural Networks)을 제안합니다. 길이가 N인 문장에 대한 순차적 처리가 병렬 처리即使在并行处理的情况下也需要O(N)时间,而ID-CNN允许在整个文档中并行运行固定深度的卷积。我们描述了一种独特的网络结构、参数共享和训练程序的组合,这使得测试时的速度提高了14-20倍,同时保持了与Bi-LSTM-CRF相当的准确性。此外,经过训练以从整个文档中聚合上下文的ID-CNN在保持8倍更快的测试速度的同时,其准确性甚至更高。(修正后的韩文翻译如下:)길이가 N인 문장에 대한 순차적 처리는 병렬 처리가 가능하더라도 O(N) 시간이 필요하지만, ID-CNN은 전체 문서에서 고정 깊이의 합성곱 연산을 병렬로 실행할 수 있습니다. 우리는 이와 같은 테스트 시 속도를 14-20배 향상시키면서 Bi-LSTM-CRF와 유사한 정확성을 유지할 수 있는 독특한 네트워크 구조, 매개변수 공유 및 학습 절차의 조합을 설명합니다. 또한, 전체 문서에서 문맥을 집계하도록 훈련된 ID-CNN은 테스트 시 속도를 8배 빠르게 유지하면서 더욱 정확한 결과를 제공합니다.