HyperAIHyperAI
vor 2 Monaten

Die Gewinnung von Diskursmarkern für das unüberwachte Lernen von Satzrepräsentationen

Damien Sileo; Tim Van-De-Cruys; Camille Pradel; Philippe Muller
Die Gewinnung von Diskursmarkern für das unüberwachte Lernen von Satzrepräsentationen
Abstract

Der aktuelle Stand der Technik im Bereich der natürlichsprachlichen Verarbeitung (NLP) basiert stark auf manuell annotierten Datensätzen, die teuer zu erstellen sind. Es gibt jedoch nur wenige Arbeiten, die unannotierte Daten – wie Diskursmarker zwischen Sätzen – adäquat nutzen, hauptsächlich aufgrund von Datenknappheit und ineffektiven Extraktionsmethoden. In dieser Arbeit schlagen wir eine Methode vor, um automatisch Satzpaare mit relevanten Diskursmarkern zu entdecken, und wenden sie auf große Datenmengen an. Unser resultierender Datensatz enthält 174 Diskursmarker, von denen jeder mindestens 10.000 Beispiele umfasst, auch seltene Marker wie "coincidentally" (zufällig) oder "amazingly" (erstaunlicherweise). Wir verwenden die resultierenden Daten zur Überwachung des Lernprozesses für transferfähige Satzeinbettungen. Zudem zeigen wir, dass obwohl das Lernen von Satzdrepräsentationen durch die Vorhersage von Diskursmarkern über verschiedene Transferaufgaben hinweg den aktuellen Stand der Technik erreicht, nicht klar ist, ob unsere Modelle tatsächlich die semantische Beziehung zwischen Sätzen genutzt haben. Dies lässt weiteres Verbesserungspotential offen. Unsere Datensätze sind öffentlich zugänglich (https://github.com/synapse-developpement/Discovery).

Die Gewinnung von Diskursmarkern für das unüberwachte Lernen von Satzrepräsentationen | Neueste Forschungsarbeiten | HyperAI