2ヶ月前

多言語構文解析における自己注意と事前学習

Nikita Kitaev; Steven Cao; Dan Klein
多言語構文解析における自己注意と事前学習
要約

我々は、構文解析が様々な言語と前学習条件の範囲で非監督前学習から恩恵を受けることを示します。まず、英語に対してfastText、ELMo、BERTの各手法と前学習を行わない場合を比較し、BERTがELMoを上回ることを確認しました。これは主にモデル容量の増加によるものです。一方、ELMoは非文脈的なfastText埋め込みよりも優れています。さらに、11種類の言語すべてにおいて前学習が有益であることがわかりましたが、大規模なモデルサイズ(1億以上のパラメータ)は各言語ごとに別々のモデルを学習させる際に計算コストが高くなるという問題があります。この欠点に対処するために、共同多言語前学習と微調整を行うことで、最終的なモデルにおいて10種類の言語間で大部分のパラメータを共有できることを示します。各言語ごとのモデルを微調整する場合と比べてモデルサイズが10分の1に削減されますが、全体として相対的な誤差増加は3.2%に過ぎません。また、共同微調整のアイデアを探求し、低リソース言語が他の言語の大規模データセットから恩恵を受けられる方法を提供することを示します。最後に、英語(F1スコア95.8)や中国語(F1スコア91.8)など11種類の言語における新しい最先端結果を示します。

多言語構文解析における自己注意と事前学習 | 最新論文 | HyperAI超神経