2ヶ月前

75言語、1モデル：普遍的な依存関係解析のための普遍的パーシング

Dan Kondratyuk; Milan Straka

要約

私たちはUDifyを紹介します。これは、75の言語にわたる124のUniversal Dependencies（普遍的依存関係）ツリーバンクに対して、一括して普遍品詞、形態素特徴、基本形、および依存構造を正確に予測できる多言語マルチタスクモデルです。104の言語で事前学習された多言語BERT自己注意モデルを活用し、各UDタスクに対する単純なソフトマックス分類器を使用してすべてのデータセットを連結して微調整することで、最先端のUPOS（普遍品詞）、UFeats（形態素特徴）、Lemmas（基本形）、UAS（未ラベル付属接続率）、LAS（ラベル付属接続率）スコアを達成できることを確認しました。これには再帰的なコンポーネントや言語固有のコンポーネントは必要ありません。私たちはUDifyの多言語学習について評価を行い、低資源言語がクロスリンギスティックアノテーションから最も大きな恩恵を受けていることを示しました。また、ゼロショット学習についても評価を行い、その結果は多言語での訓練がUDifyやBERTがこれまでに学習したことがない言語でも強力なUD予測を提供することを示唆しています。UDifyのコードはhttps://github.com/hyperparticle/udifyで利用可能です。