
要約
情報抽出は自然言語処理(NLP)における重要なタスクであり、関係データベースのフィリングに向けたデータの自動抽出を可能にします。歴史的に、研究とデータは英語テキスト向けに生成され、その後数年間でアラビア語、中国語(ACE/OntoNotes)、オランダ語、スペイン語、ドイツ語(CoNLL評価)など多くの言語向けのデータセットが作成されました。各言語を異なるデータセットとして扱い、それぞれに対して最適化されたモデルを構築することが自然な傾向でした。本論文では、複数の言語を同時に学習する多言語BERTに基づく単一の固有表現認識モデルについて調査します。このモデルは、1つの言語のみで学習したモデルよりも高い精度でこれらの言語をデコードすることができます。初期モデルの改善のために、マルチタスク学習や部分的な勾配更新などの正則化戦略の使用を研究しました。このモデルは単一のものでありながら複数の言語(コードスイッチも含む)に対応できることに加えて、新しい言語に対するゼロショット予測も未訓練データが利用できない場合でも即座に行うことができます。結果は、このモデルが単一言語モデルと競合する性能を持つだけでなく、CoNLL02オランダ語およびスペイン語データセットやOntoNotesアラビア語および中国語データセットにおいて最先端の結果を達成していることを示しています。さらに、未知の言語でも合理的な性能を発揮し、3つのCoNLL言語でのゼロショット予測において最先端の結果を達成しています。