2ヶ月前
単一/複数ソースのクロスリンガルNERをターゲット言語のラベルなしデータを用いた教師-生徒学習により実現
Qianhui Wu; Zijia Lin; Börje F. Karlsson; Jian-Guang Lou; Biqing Huang

要約
ラベル付きデータが少ないまたは存在しない言語の固有表現認識(NER)問題をより効果的に解決するために、クロスリンギアルなNERは、豊富なラベル付きデータを持つソース言語から得られた知識を効果的に活用する必要があります。これまでのクロスリンギアルなNERに関する研究は、主にペアワイズのテキストを使用したラベル投影や直接的なモデル転送に基づいています。しかし、これらの方法は、ソース言語のラベル付きデータが利用できない場合には適用できず、ターゲット言語の非ラベル付きデータに含まれる情報も活用できません。本論文では、これらの制限に対処するための教師-生徒学習手法を提案します。この手法では、ソース言語のNERモデルを教師として使用し、ターゲット言語の非ラベル付きデータで生徒モデルを訓練します。提案手法は単一ソースおよび複数ソースのクロスリンギアルなNERに対して適用可能です。後者の場合、異なる教師モデルからの監督をより適切に重み付けするための類似度測定手法も提案しています。3つのターゲット言語とベンチマークデータセットを用いた広範な実験により、提案手法が単一ソースおよび複数ソースのクロスリンギアルなNERにおいて既存の最先端手法を上回ることが明確に示されています。注:文中的专业术语如“固有表現認識(Named Entity Recognition, NER)”、“クロスリンギアル(Cross-lingual)”、“教師-生徒学習(Teacher-student learning)”等均采用了通用的日语译法,以保持专业性和准确性。