7ヶ月前

概要

今日、多くの実践者がウェブ全体や大規模なトラフィックに対して基本的な自然言語処理（NLP）を実行しており、時間とエネルギーのコストを削減するために、より高速な方法が極めて重要となっています。最近のGPUハードウェアの進歩により、双方向LSTM（Bi-LSTM）がトークンごとのベクトル表現を得るための標準的な手法として登場し、NERなどのラベル付けタスクの入力として使用されています（通常は線形チェーンCRFによる予測に続いて）。これらのモデルは表現力があり正確ですが、GPU並列性を完全に活用できず、計算効率が制限されるという問題があります。本論文では、Bi-LSTMに代わるNERのためのより高速な代替手法である反復拡張畳み込みニューラルネットワーク（Iterated Dilated Convolutional Neural Networks: ID-CNNs）を提案します。ID-CNNsは伝統的なCNNよりも大きなコンテキストと構造化予測に優れた能力を持っています。長さNの文に対する逐次処理が必要でO(N)の時間がかかるLSTMとは異なり、ID-CNNsは固定深度の畳み込みをドキュメント全体に対して並列に実行することができます。我々はネットワーク構造、パラメータ共有および学習手順の一意な組み合わせについて説明し、この組み合わせにより14-20倍のテスト時の速度向上を達成しながらBi-LSTM-CRFと同等の精度を維持することが可能となります。さらに、ドキュメント全体からコンテキストを集約するように訓練されたID-CNNsはさらに精度が高まりつつも8倍速いテスト時間を保つことができます。

ソースPDF