
要約
遠隔ラベリングデータは、統計モデルの学習を拡大するために使用できますが、通常はノイジーであり、そのノイズは遠隔ラベリング手法によって異なることがあります。本研究では、この種のデータを処理するための二段階手順を提案します。まず、学習済みモデルでデータを除燥し、次に、クリーンかつ除燥された遠隔データを使用して最終的なモデルを標準的な教師あり学習で訓練します。当社の除燥アプローチは以下の2つの部分から構成されています。第一に、フィルタリング関数が完全に使用できない遠隔ラベリングデータの例を破棄します。第二に、リラベリング関数が保持された例のノイジーラベルを修復します。これらの各コンポーネントは、少量の人手によるラベリングセットから生成された合成ノイズ付き例で訓練されたモデルです。私たちは Choiら (2018) が提唱した超微細エンティティタイプ付けタスクにおいてこのアプローチを検討しました。私たちのベースラインモデルは、彼らのモデルに事前学習済みELMo表現を追加した拡張版であり、すでに最先端の性能を達成しています。当社の学習済みモデルで除燥された遠隔データを追加することで、このベースラインモデルよりもさらに性能向上が見られました。また、未加工の遠隔データやヒューリスティックにより除燥された遠隔データで訓練されたモデルよりも優れた結果を得ています。注:「distantly-labeled data」は「遠隔ラベリングデータ」、「ultra-fine entity typing task」は「超微細エンティティタイプ付けタスク」と訳しました。「ELMo representations」については一般的な用語であるため、「ELMo表現」と訳しました。