Zerlegte Meta-Learning für Few-Shot Sequenzmarkierung

Few-shot Sequence-Labeling ist eine allgemeine Problemformulierung für zahlreiche Aufgaben des natürlichen Sprachverstehens in Szenarien mit geringer Datenverfügbarkeit, bei denen Modelle dazu befähigt werden müssen, sich auf neue Klassen mit nur wenigen gelabelten Beispielen zu verallgemeinern. In jüngster Zeit dominieren Ansätze, die auf Metrik-basiertem Meta-Lernen beruhen, was jedoch Herausforderungen bei der Modellierung des vielfältigen „Other“-Prototyps und der Unfähigkeit zur Generalisierung auf Klassen mit großen Domänenunterschieden mit sich bringt. Um diese Probleme zu überwinden, schlagen wir einen zerlegten Meta-Lernansatz für Few-shot Sequence-Labeling vor, der die Aufgabe in zwei Teilprobleme zerlegt: Few-shot Mention-Detection und Few-shot Typ-Klassifikation, die sequenziell mittels Meta-Lernen bearbeitet werden. Konkret nutzen wir Model-Agnostic Meta-Learning (MAML), um das Mention-Detection-Modell dazu zu bringen, Grenzwertwissen zu erlernen, das über verschiedene Klassen hinweg gemeinsam ist. Auf Basis der detektierten Mention-Blöcke setzen wir anschließend ein MAML-verbessertes, span-basiertes prototypisches Netzwerk für die Few-shot-Typ-Klassifikation ein. Auf diese Weise umgeht der Zerlegungsansatz die Notwendigkeit, den vielfältigen „Other“-Prototyp explizit zu modellieren. Gleichzeitig ermöglicht die Verwendung des MAML-Algorithmus eine effizientere Exploration des Wissens in den Support-Beispielen, sodass unser Modell sich schnell an neue Klassen anpassen kann, selbst wenn nur wenige gelabelte Beispiele zur Verfügung stehen. Innerhalb unseres Rahmens untersuchen wir zunächst eine grundlegende Implementierung mit zwei getrennten Modellen für die beiden Teilprobleme. Darüber hinaus schlagen wir ein gemeinsames Modell vor, das die Modellgröße und die Inferenzzeit reduziert und somit unseren Ansatz besser für ressourcenbeschränkte Szenarien geeignet macht. Umfangreiche Experimente an neun Benchmark-Datensätzen – einschließlich Named Entity Recognition, Slot-Taging, Ereignisdetektion und Part-of-Speech-Taging – zeigen, dass der vorgeschlagene Ansatz eine state-of-the-art-Leistung über verschiedene Few-shot Sequence-Labeling-Aufgaben hinweg erzielt.