Gelernt in der Übersetzung: Kontextualisierte Wortvektoren

Das maschinelle Sehen (Computer Vision) hat von der Initialisierung mehrerer tiefer Schichten mit auf großen überwachten Trainingsdatensätzen wie ImageNet vortrainierten Gewichten profitiert. Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) initialisiert in der Regel nur die tiefste Schicht von tiefen Modellen mit vortrainierten Wortvektoren. In dieser Arbeit verwenden wir einen tiefen LSTM-Encoder aus einem für maschinelle Übersetzung (Machine Translation, MT) trainierten Aufmerksamkeitsmodell zur Kontextualisierung von Wortvektoren. Wir zeigen, dass das Hinzufügen dieser Kontextvektoren (Context Vectors, CoVe) die Leistung bei einer Vielzahl gängiger NLP-Aufgaben verbessert: Sentimentanalyse (SST, IMDb), Frageklassifizierung (TREC), Implikationserkennung (SNLI) und Fragenbeantwortung (SQuAD). Für feingranulare Sentimentanalyse und Implikationserkennung verbessern CoVe die Leistung unserer Basismodelle auf den aktuellen Stand der Forschung.