17日前

ラベルの言語化と含意を用いた効果的なゼロショットおよびフェイショット関係抽出

Oscar Sainz, Oier Lopez de Lacalle, Gorka Labaka, Ander Barrena, Eneko Agirre
ラベルの言語化と含意を用いた効果的なゼロショットおよびフェイショット関係抽出
要約

関係抽出システムは、大量のラベル付き例を必要とするが、それらのラベル付けは費用がかかる。本研究では、関係抽出を含意(entailment)タスクとして再定式化し、1関係あたり15分未満で手動で作成可能な簡潔な表現(verbalizations)を用いる。このシステムは、事前学習済みのテキスト含意エンジンを用いており、学習例を一切用いずにゼロショットで実行するか、ラベル付き例を用いて微調整(few-shotまたは完全学習)する。TACREDデータセットにおける実験では、ゼロショットで63%のF1スコアを達成し、関係ごとに16例のラベル付きデータを用いた場合に69%(同じ条件下で最も優れた従来の教師ありシステムより17ポイント優れている)にまで向上した。また、最先端のシステム(学習データ量が20倍多い)までわずか4ポイントの差にとどまり、非常に高い性能を示した。さらに、より大きな含意モデルを用いることで性能が顕著に向上し、ゼロショット条件下で最大12ポイントの向上が確認された。完全に微調整した場合、TACREDにおいてこれまでで最も優れた結果を報告できるようになった。分析の結果、本研究のfew-shotシステムは関係間の識別において特に効果的であり、低データ環境における性能差の主な要因は「関係なし」のケースを正しく識別できるかどうかに起因していることが明らかになった。