2ヶ月前
ZEN: N-gram表現を用いた中国語テキストエンコーダーの事前学習
Shizhe Diao; Jiaxin Bai; Yan Song; Tong Zhang; Yonggang Wang

要約
テキストエンコーダの事前学習は通常、単語の断片(英語ではword pieces、中国語では文字)に対応するトークンのシーケンスとしてテキストを処理します。これにより、より大きなテキスト粒度が持つ情報が省略され、エンコーダは特定の文字の組み合わせに容易に適応できなくなります。その結果、重要な意味情報が失われることがあり、特に中国語では明確な単語境界がないため、この問題は顕著です。本論文では、N-gram表現によって強化されたBERTベースの中国語(Z)テキストエンコーダであるZENを提案します。ZENでは、学習中に異なる文字の組み合わせが考慮されます。これにより、潜在的な単語やフレーズの境界が文字エンコーダ(BERT)と共に明示的に事前学習および微調整されます。したがって、ZENは文字列とその中に含まれる単語やフレーズの包括的な情報を統合しています。実験結果は、一連の中言語処理タスクにおけるZENの有効性を示しています。我々は、他の公開されたエンコーダよりも少ないリソースを使用しながらも、ZENがほとんどのタスクで最先端の性能を達成できることを示しました。さらに、限られたデータしかない状況での事前学習技術適用において重要な点として、ZENを小さなコーパスで学習させても合理的な性能を得られることを示しています。ZENのコードと事前学習済みモデルはhttps://github.com/sinovation/zen から入手可能です。