HyperAIHyperAI
vor 18 Tagen

Verbesserung der präzisen Vorhersage seltener Klassen auf Satzebene bei der Relationsextraktion

{Yong-Suk Choi, Hyeong-Ryeol Baek}
Abstract

Die relationale Extraktion auf Satzebene (Sentence-level Relation Extraction, RE) weist eine stark ungleichmäßige Datenaufteilung auf, wobei etwa 80 % der Daten als negativ klassifiziert sind, d. h. keine Relation aufweisen. Zudem existieren unter den positiven Etiketten seltene Klassen (Minority Classes, MC), und einige Instanzen dieser MC weisen eine fehlerhafte Etikettierung auf. Aufgrund dieser Herausforderungen – insbesondere von Etikettierungsrauschen und geringer Verfügbarkeit von Trainingsdaten – gelingt es den meisten Modellen nicht, die seltenen Klassen angemessen zu lernen, wodurch sie auf diesen Klassen F1-Scores von null oder sehr niedrigem Niveau erzielen. Bisherige Studien haben hingegen vorwiegend auf den Mikro-F1-Score fokussiert, während die Behandlung seltener Klassen unzureichend bleibt. Um die hohe Fehlklassifizierungsrate bei seltenen Klassen zu reduzieren, führen wir (1) ein Modul zur Aufmerksamkeit für seltene Klassen (Minority Class Attention Module, MCAM) und (2) effektive, speziell für die relationale Extraktion entwickelte Daten-Augmentierungsmethoden ein. Das MCAM berechnet Vertrauenswerte für Instanzen der seltenen Klassen, um zuverlässige Beispiele für die Augmentierung auszuwählen, und integriert gleichzeitig Informationen über seltene Klassen während des Trainingsprozesses. Unsere Experimente zeigen, dass unsere Ansätze sowohl auf TACRED state-of-the-art F1-Scores erzielen als auch die F1-Scores für seltene Klassen erheblich verbessern.