2ヶ月前

T-Projection: 高品質なアノテーション投影手法によるシーケンスラベリングタスクの改善

Iker García-Ferrero; Rodrigo Agerri; German Rigau
T-Projection: 高品質なアノテーション投影手法によるシーケンスラベリングタスクの改善
要約

与えられたシーケンスラベリングタスクや言語に対する容易に利用可能なラベル付きデータが存在しない場合、アノテーション投影(annotation projection)は自動的にアノテーションデータを生成するための一つの戦略として提案されています。アノテーション投影は、多くの場合、並行コーパスにおいて、ソース言語の特定範囲に関連するラベルを対応するターゲット言語の範囲に移動させるタスクとして定式化されてきました。本論文では、大規模な事前学習済みテキストツーテキスト言語モデルと最先端の機械翻訳技術を活用した新しいアノテーション投影手法であるT-Projectionについて紹介します。T-Projectionは、ラベル投影タスクを以下の2つのサブタスクに分解します:(i) 多言語T5モデルを使用して投影候補のセットを生成する候補生成ステップ、(ii) 生成された候補を翻訳確率に基づいてランキングする候補選択ステップです。私たちは5つのインド・ヨーロッパ系言語と8つの低リソースアフリカ系言語で内在的および外在的タスクに関する実験を行いました。その結果、T-Projectionが従来のアノテーション投影手法よりも大幅に優れていることを示しました。私たちは、T-Projectionがシーケンスラベリングタスクにおける高品質な訓練データ不足を自動的に軽減できると考えています。コードとデータは公開されています。

T-Projection: 高品質なアノテーション投影手法によるシーケンスラベリングタスクの改善 | 最新論文 | HyperAI超神経