Tiefe kontextualisierte Wortrepräsentationen

Wir stellen eine neue Art von tief kontextualisierten Wortrepräsentationen vor, die sowohl (1) komplexe Merkmale der Worteinsatzung (z.B. Syntax und Semantik) als auch (2) deren Variation in verschiedenen linguistischen Kontexten (d.h. zur Modellierung von Polysemie) abbildet. Unsere Wortvektoren sind gelernte Funktionen der internen Zustände eines tiefen bidirektionalen Sprachmodells (biLM), das auf einem großen Textkorpus vortrainiert wurde. Wir zeigen, dass diese Repräsentationen einfach zu bestehenden Modellen hinzugefügt werden können und den aktuellen Stand der Technik bei sechs anspruchsvollen NLP-Problemen erheblich verbessern, darunter Fragebeantwortung, textuelle Implikation und Sentimentanalyse. Darüber hinaus präsentieren wir eine Analyse, die verdeutlicht, dass die Offenlegung der tiefen internen Strukturen des vortrainierten Netzwerks entscheidend ist, da sie es nachgeschalteten Modellen ermöglicht, verschiedene Arten von semi-überwachten Signalen zu mischen.