16日前
Morfessorを活用した特徴量と多言語学習を用いた標準的な形態素分割
{Mikko Kurimo, Mathias Creutz, Sami Virpioja, Stig-Arne Grönroos, Aku Rouhe}

要約
SIGMORPHON 2022 共同課題「語素分割」への提出において、無教師学習による語素分割手法である Morfessor が教師あり設定においても有効かどうかを検討した。先行研究では、ラベル付きデータが限られた半教師あり設定において、このアプローチの有効性が示されている。一方、本課題のデータ量は課題によって異なる:語彙レベルのラベル付き学習データ量は大きく増加しているが、文レベルのラベル付き学習データ量は依然として少ない。本研究のアプローチは、ニューラル系列対系列モデルの入力データを、無教師手法により事前分割することである。無教師手法は生テキストデータで学習可能であるため、Wikipedia を活用して学習データ量を拡張した。さらに、文レベルのタスクに対して多言語モデルを学習させた。その結果、Morfessor を用いて拡張された特徴量は、文レベルのタスクにおいてすべての課題で効果を示したが、語彙レベルのタスクでは一部の課題でのみ効果が確認された。多言語学習は単言語モデルに比べて文レベルタスクにおいて顕著な性能向上をもたらしたが、一方で、拡張特徴量の効果を相殺する結果となった。