2ヶ月前
非監督境界認識言語モデルの事前学習による中国語シーケンスラベリングへの応用
Peijie Jiang; Dingkun Long; Yanzhao Zhang; Pengjun Xie; Meishan Zhang; Min Zhang

要約
境界情報は、中国語処理の様々なタスクにおいて重要な役割を果たします。これらのタスクには、単語分割、品詞タグ付け、固有名詞認識などが含まれます。従来の研究では、高品質な外部辞書の使用に頼ることが一般的でした。辞書項目が明確な境界情報を提供できるためです。しかし、辞書の品質を確保するためには多くの人的労力が必要であり、これが一般的に軽視されてきました。本研究では、監督なし統計的境界情報を提案し、この情報を事前学習済み言語モデルに直接エンコードするアーキテクチャを提案します。これにより、境界情報に対応したBERT(Boundary-Aware BERT: BABERT)が生成されます。私たちはBABERTを中国語シーケンスラベリングタスクの特徴誘導に適用しました。10つの中国語シーケンスラベリングベンチマークでの実験結果は、BABERTがすべてのデータセットで一貫した改善をもたらすことを示しています。さらに、当方の手法は従来の監督付き辞書探索と相補的であり、外部辞書情報と組み合わせることでさらなる改善が達成できます。注:文中的专业术语如“边界信息”、“单语分割”、“品词标注”、“命名实体识别”、“预训练语言模型”等均采用了通用的日语译法,以保持专业性和准确性。