18日前

集合型品詞タグ付けのための逐次アライメント手法

{Yoon-Hyung Roh, SangKeun Jung, Jeesu Jung}
要約

品詞タグ付けは、自然言語処理(NLP)における追加的なタスクに必要な基本的な構造的・内容的情報を提供する重要なタスクである。従来、品詞タグ付け問題は順次ラベル付け問題として定式化されてきたが、提案されたアンサンブル手法の多くは、後処理におけるシーケンスアラインメントに注目してこなかった。本研究では、シーケンスアラインメント手法を用いた重み付きアンサンブル手法を、品詞タガーデザインに適用する。この手法により、既存のDNAアラインメント手法を自然言語処理に応用したシーケンスアラインメント法を用いて計算された類似度スコアに基づく部分シーケンス選択器という、シンプルながら強力な後処理機構を導入する。本研究では、3種類の部分シーケンス単位(シーケンス単位、語単位、文字スパン)を用いて、複数のシーケンスアラインメント手法をアンサンブル化した実験を実施した。英語および韓国語のデータセットを用いた実験の結果、本研究で提案するシーケンスアラインメントベースのアンサンブル手法は、基本的なハードボーティング法を上回る性能を示した。異なる部分シーケンス単位を用いたアンサンブルアラインメント手法の大多数が、ハードボーティング法よりもF1スコアの向上を達成しており、テストデータセットにおいてF1スコアは最大で0.36向上した。