17日前
マルチソース転移構文解析のための表現学習フレームワーク
{Ting Liu, Haifeng Wang, David Yarowsky, Wanxiang Che, Jiang Guo}
要約
低リソース言語における依存構文解析器の導出において、多言語間モデル転移は有望なアプローチとして注目されている。特に、アノテーション付き木構造コーパス(treebank)が存在しない言語に対して有効である。このモデル転移アプローチの主な課題は以下の2点に集約される:1. 語彙的特徴(lexical features)は言語間で直接転移できないこと、2. 対象言語固有の句構造(syntactic structures)を正確に復元することが困難であること。これらの課題に対処するため、本研究ではマルチソース転移構文解析を実現するための新たな表現学習フレームワークを提案する。本フレームワークにより、全語彙的特徴をそのまま用いたマルチソース転移解析が直感的かつ容易に実現可能となる。Googleのユニバーサル依存関係コーパス(v2.0)を用いた評価において、最良のモデルは、語彙情報を削除した従来のマルチソース転移モデルと比較して、平均ラベル付き接続スコア(labeled attachment score)で6.53%の絶対的な向上を達成した。さらに、最近提案された最先端の転移システムと比較しても、顕著な性能優位性を示した。