HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Zerlegte Meta-Learning für Few-Shot Sequenzmarkierung

{Chin-Yew Lin Tiejun Zhao Börje F. Karlsson Jieru Lin Huiqiang Jiang Qianhui Wu Tingting Ma}

Zerlegte Meta-Learning für Few-Shot Sequenzmarkierung

Abstract

Few-shot Sequence-Labeling ist eine allgemeine Problemformulierung für zahlreiche Aufgaben des natürlichen Sprachverstehens in Szenarien mit geringer Datenverfügbarkeit, bei denen Modelle dazu befähigt werden müssen, sich auf neue Klassen mit nur wenigen gelabelten Beispielen zu verallgemeinern. In jüngster Zeit dominieren Ansätze, die auf Metrik-basiertem Meta-Lernen beruhen, was jedoch Herausforderungen bei der Modellierung des vielfältigen „Other“-Prototyps und der Unfähigkeit zur Generalisierung auf Klassen mit großen Domänenunterschieden mit sich bringt. Um diese Probleme zu überwinden, schlagen wir einen zerlegten Meta-Lernansatz für Few-shot Sequence-Labeling vor, der die Aufgabe in zwei Teilprobleme zerlegt: Few-shot Mention-Detection und Few-shot Typ-Klassifikation, die sequenziell mittels Meta-Lernen bearbeitet werden. Konkret nutzen wir Model-Agnostic Meta-Learning (MAML), um das Mention-Detection-Modell dazu zu bringen, Grenzwertwissen zu erlernen, das über verschiedene Klassen hinweg gemeinsam ist. Auf Basis der detektierten Mention-Blöcke setzen wir anschließend ein MAML-verbessertes, span-basiertes prototypisches Netzwerk für die Few-shot-Typ-Klassifikation ein. Auf diese Weise umgeht der Zerlegungsansatz die Notwendigkeit, den vielfältigen „Other“-Prototyp explizit zu modellieren. Gleichzeitig ermöglicht die Verwendung des MAML-Algorithmus eine effizientere Exploration des Wissens in den Support-Beispielen, sodass unser Modell sich schnell an neue Klassen anpassen kann, selbst wenn nur wenige gelabelte Beispiele zur Verfügung stehen. Innerhalb unseres Rahmens untersuchen wir zunächst eine grundlegende Implementierung mit zwei getrennten Modellen für die beiden Teilprobleme. Darüber hinaus schlagen wir ein gemeinsames Modell vor, das die Modellgröße und die Inferenzzeit reduziert und somit unseren Ansatz besser für ressourcenbeschränkte Szenarien geeignet macht. Umfangreiche Experimente an neun Benchmark-Datensätzen – einschließlich Named Entity Recognition, Slot-Taging, Ereignisdetektion und Part-of-Speech-Taging – zeigen, dass der vorgeschlagene Ansatz eine state-of-the-art-Leistung über verschiedene Few-shot Sequence-Labeling-Aufgaben hinweg erzielt.

Benchmarks

BenchmarkMethodikMetriken
few-shot-ner-on-few-nerd-interDecomposedMetaSL
10 way 1~2 shot: 55.61±0.32
10 way 5~10 shot: 67.85±0.18
5 way 1~2 shot: 62.09±0.93
5 way 5~10 shot: 71.26±0.15
Average: 63.99
few-shot-ner-on-few-nerd-intraDecomposedMetaSL
10 way 1~2 shot: 43.03±0.29
10 way 5~10 shot: 57.58±0.26
5 way 1~2 shot: 49.90±0.33
5 way 5~10 shot: 64.36±0.20
Average: 53.72
pos-tagging-on-twitter-posDecomposedMetaSL
Accuracy: 81.01±0.15
pos-tagging-on-wsj-posDecomposedMetaSL
Accuracy: 91.78±0.21
slot-filling-on-snipsDecomposedMetaSL
F1 (1-shot) avg: 74.89
F1 (5-shot) avg: 84.54

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zerlegte Meta-Learning für Few-Shot Sequenzmarkierung | Forschungsarbeiten | HyperAI