2ヶ月前
多くの言語、1つのパーサー
Waleed Ammar; George Mulcaire; Miguel Ballesteros; Chris Dyer; Noah A. Smith

要約
私たちは、依存関係解析のための多言語モデルを一つ訓練し、それを複数の言語の文章解析に使用します。この解析モデルは (i) 多言語単語クラスタと埋め込み;(ii) トークンレベルの言語情報;および (iii) 言語固有の特徴(細かい品詞タグ)を利用します。このような入力表現により、パーサーは複数の言語で効果的に解析を行うだけでなく、言語普遍性と類型的類似性に基づいて異なる言語間での一般化も可能となり、限られたアノテーションから学習する際の効果が高まります。私たちのパーサーの性能は、対象言語に大規模なツリーバンク、小規模なツリーバンク、または訓練用のツリーバンクがない場合など、さまざまなデータ状況において強力な基準モデルと比較しても優れています。