HyperAIHyperAI
vor 2 Monaten

Überwachtes Lernen universeller Satzrepräsentationen aus Daten zur natürlichsprachlichen Inferenz

Alexis Conneau; Douwe Kiela; Holger Schwenk; Loic Barrault; Antoine Bordes
Überwachtes Lernen universeller Satzrepräsentationen aus Daten zur natürlichsprachlichen Inferenz
Abstract

Viele moderne NLP-Systeme (Natural Language Processing) basieren auf Wort-Vektoren, die zuvor in einem unüberwachten Modus auf großen Korpora trainiert wurden, als Grundfunktionen. Bemühungen, Vektoren für größere Textabschnitte wie Sätze zu erhalten, waren jedoch weniger erfolgreich. Mehrere Versuche, unüberwachte Repräsentationen von Sätzen zu lernen, haben eine Leistung erzielt, die nicht ausreichend zufriedenstellend war, um weit verbreitet zu werden. In dieser Arbeit zeigen wir, wie universelle Satzrepräsentationen, die mit den überwachten Daten des Stanford Natural Language Inference-Datensatzes trainiert wurden, konsistent unüberwachte Methoden wie SkipThought-Vektoren bei einer Vielzahl von Transferaufgaben übertrumpfen können. Ebenso wie Computer Vision ImageNet verwendet, um Merkmale zu extrahieren, die dann auf andere Aufgaben übertragen werden können, deutet unsere Arbeit auf die Eignung der natürlichsprachlichen Inferenz für das Transferlernen auf andere NLP-Aufgaben hin. Unser Encoder ist öffentlich verfügbar.

Überwachtes Lernen universeller Satzrepräsentationen aus Daten zur natürlichsprachlichen Inferenz | Neueste Forschungsarbeiten | HyperAI