2ヶ月前
ゼロリソース環境におけるクロスリンガルシーケンスラベリングのためのモデルとデータ転送
Iker García-Ferrero; Rodrigo Agerri; German Rigau

要約
ゼロリソースのクロスリンガル転送アプローチは、ソース言語から教師ありモデルを未ラベルのターゲット言語に適用することを目指しています。本論文では、クロスリンガルゼロリソースシーケンスラベリングにこれまで使用されてきた2つの主要な技術、すなわちデータ転送に基づく手法とモデル転送に基づく手法について詳細な研究を行いました。以前の研究では、翻訳とアノテーション投影(データベースのクロスリンガル転送)が効果的なクロスリンガルシーケンスラベリング技術であると提案されてきましたが、本論文では実験的に高容量の多言語言語モデルがゼロショット設定(モデルベースのクロスリンガル転送)で一貫してデータベースのクロスリンガル転送手法を上回ることを示しました。結果の詳細分析は、この違いが重要な言語使用の相違によるものである可能性があることを示唆しています。より具体的には、機械翻訳はしばしばゴールドスタンダードデータを使用する際とは異なるテキスト信号を生成し、これによりファインチューニングおよび評価プロセスに影響を与えます。また、本研究の結果は、高容量の多言語言語モデルが利用できない場合でも、データベースのクロスリンガル転送手法が競争力のある選択肢であることを示しています。