3ヶ月前

混合表現を用いたシーケンス生成

{Lijun Wu Shufang Xie Yingce Xia Fan Yang Tao Qin Jianhuang Lai Tie-Yan Liu}

要約

トークン化は、多くの自然言語処理（NLP）タスクにおける第一段階であり、ニューラルNLPモデルにおいて重要な役割を果たす。バイトペアエンコーディング（BPE）をはじめとするトークン化手法は、巨大な語彙を大幅に削減し、未知語（out-of-vocabulary words）に対処できるため、シーケンス生成タスクにおいて効果的であることが示され、広く採用されている。しかし、さまざまなトークン化手法が存在する一方で、それらの中で最も優れた手法が明確に定まっていないのが現状である。本研究では、個々のトークン化手法が持つ特徴と利点を活かすことで、モデル性能の向上を図るべく、複数のトークン化手法からの混合表現をシーケンス生成タスクに活用するアプローチを提案する。具体的には、混合表現を統合する新しいモデルアーキテクチャと、異なるトークン化手法の多様性をより効果的に活用するためのコ-teachingアルゴリズムを導入した。本手法は、英語↔ドイツ語、英語↔ルーマニア語など6つの言語ペアを対象としたニューラル機械翻訳（NMT）タスクおよび要約生成（抽象的要約）タスクにおいて、顕著な性能向上を達成した。