
要約
多言語への学習データの翻訳は、クロスリンガル転送を改善する実践的な解決策として注目を集めています。スパンレベルのアノテーションを必要とするタスク、例えば情報抽出や質問応答では、翻訳されたテキストにアノテーションされたスパンをマッピングするための追加のラベル投影ステップが必要となります。最近では、元の文のラベル付きスパンの周りに特殊なマーカーを挿入して、翻訳と投影を同時に行う単純なマーク・アンド・トランスレート手法がいくつか利用されています。しかし、我々が知る限りでは、この手法が従来の単語アライメントに基づくアノテーション投影と比較した際の性能について経験的な分析が行われていません。本論文では、57言語と3つのタスク(質問応答(QA)、固有表現認識(NER)、イベント抽出)を対象とした広範な経験的研究を行い、両手法の効果と限界を評価します。これにより文献上の重要な空白を埋めることができます。実験結果は、我々が最適化し「イージープロジェクト」と呼ぶマーク・アンド・トランスレート手法が多くの言語に対して容易に適用でき、驚くほど良好な性能を示し、より複雑な単語アライメントベースの手法よりも優れていることを示しています。我々はエンドタスクの性能に影響を与えるいくつかの主要因を分析し、「イージープロジェクト」が良好に機能する理由は翻訳後もラベルスパン境界を正確に保つことができるからであることを示しました。本研究で使用したすべてのコードとデータは公開される予定です。