vor 2 Monaten

Das Lernen, distant etikettierte Daten für die Entitätstypisierung zu entreiben

Yasumasa Onoe; Greg Durrett

Abstract

Entfernt beschriftete Daten können zur Skalierung des Trainings statistischer Modelle verwendet werden, sind jedoch in der Regel verrauscht und dieses Rauschen kann je nach entfernter Beschriftungstechnik variieren. In dieser Arbeit schlagen wir ein zweistufiges Verfahren zur Bearbeitung dieser Art von Daten vor: Zunächst wird das Rauschen mit einem gelernten Modell reduziert, danach wird unser endgültiges Modell auf sauberen und entrauschten entfernten Daten mit standardmäßig überwachtem Training ausgebildet. Unser Entrauschungsansatz besteht aus zwei Teilen. Erstens filtert eine Filterfunktion Beispiele aus den entfernt beschrifteten Daten, die vollständig unbrauchbar sind. Zweitens repariert eine Neubeschriftungsfunktion verrauschte Labels für die verbleibenden Beispiele. Jede dieser Komponenten ist ein Modell, das auf synthetisch verrauschten Beispielen trainiert wurde, die aus einem kleinen manuell beschrifteten Datensatz generiert wurden. Wir untersuchen diesen Ansatz am Beispiel der ultrafeinen Entitätstypisierungsaufgabe von Choi et al. (2018). Unser Basismodell ist eine Erweiterung ihres Modells mit vortrainierten ELMo-Repräsentationen, die bereits den Stand der Technik erreichen. Die Hinzufügung von entfernten Daten, die mit unseren gelernten Modellen entrauscht wurden, führt zu weiteren Leistungsverbesserungen im Vergleich zu diesem Basismodell und übertrifft Modelle, die auf rohen oder heuristisch entrauschten entfernten Daten trainiert wurden.