HyperAIHyperAI

Command Palette

Search for a command to run...

Die Gewinnung von Diskursmarkern für das unüberwachte Lernen von Satzrepräsentationen

Damien Sileo Tim Van De Cruys Camille Pradel Philippe Muller

Zusammenfassung

Der aktuelle Stand der Technik im Bereich der natürlichsprachlichen Verarbeitung (NLP) basiert stark auf manuell annotierten Datensätzen, die teuer zu erstellen sind. Es gibt jedoch nur wenige Arbeiten, die unannotierte Daten – wie Diskursmarker zwischen Sätzen – adäquat nutzen, hauptsächlich aufgrund von Datenknappheit und ineffektiven Extraktionsmethoden. In dieser Arbeit schlagen wir eine Methode vor, um automatisch Satzpaare mit relevanten Diskursmarkern zu entdecken, und wenden sie auf große Datenmengen an. Unser resultierender Datensatz enthält 174 Diskursmarker, von denen jeder mindestens 10.000 Beispiele umfasst, auch seltene Marker wie "coincidentally" (zufällig) oder "amazingly" (erstaunlicherweise). Wir verwenden die resultierenden Daten zur Überwachung des Lernprozesses für transferfähige Satzeinbettungen. Zudem zeigen wir, dass obwohl das Lernen von Satzdrepräsentationen durch die Vorhersage von Diskursmarkern über verschiedene Transferaufgaben hinweg den aktuellen Stand der Technik erreicht, nicht klar ist, ob unsere Modelle tatsächlich die semantische Beziehung zwischen Sätzen genutzt haben. Dies lässt weiteres Verbesserungspotential offen. Unsere Datensätze sind öffentlich zugänglich (https://github.com/synapse-developpement/Discovery).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp