
要約
クロスリンガルの固有表現認識(NER)におけるゼロショット転移を並行コーパスを使用して実現する新しい手法を提案します。私たちはXLM-RoBERTaの上にエンティティアライメントモデルを構築し、並行データの英語部分で検出されたエンティティを対象言語の文に射影することで、精度がこれまでのすべての非監督モデルを超える結果を得ました。このアライメントモデルにより、対象言語での疑似ラベル付きNERデータセットを作成し、タスク固有のモデルを訓練することが可能になります。翻訳手法を使用する場合と異なり、この手法は対象言語の元々のコーパスに含まれる自然な流暢さやニュアンスを活用できます。また、ノイジーな疑似ラベル付きデータセットでのモデル訓練をさらに改善するために、フォーカルロスに類似した損失関数を提案しましたが、重み付け方向が逆になっています。我々は4つの対象言語でベンチマークデータセットを使用してこの提案手法を評価し、最新の最先端(SOTA)モデルと比較して競争力のあるF1スコアを得ました。さらに、並行コーパスのサイズとドメインが最終的な転移性能に与える影響についても議論しています。