Alle Wort-Einbettungen aus einer Einbettung

In neuronenetzbasierenden Modellen für die natürliche Sprachverarbeitung (NLP) bilden Wort-Einbettungen (word embeddings) oft den größten Teil der Parameter. Konventionelle Modelle bereiten eine große Einbettungsmatrix vor, deren Größe vom Vokabular abhängt. Daher ist der Speicherbedarf dieser Modelle sowohl im Arbeitsspeicher als auch auf Festplatten hoch. In dieser Studie wurde eine Methode entwickelt, um die Gesamtzahl der Parameter zu reduzieren: Alle Wort-Einbettungen werden durch die Transformation einer gemeinsamen Einbettung dargestellt. Die vorgeschlagene Methode, ALONE (all word embeddings from one), konstruiert die Einbettung eines Wortes, indem sie das gemeinsame Einbettungsvektor mit einem Filtervektor modifiziert, der wortabhängig, aber nicht trainierbar ist. Anschließend wird die konstruierte Einbettung in ein Feed-Forward-Neuronales Netz eingegeben, um dessen Ausdrucksfähigkeit zu erhöhen. Naiv betrachtet, beanspruchen die Filtervektoren denselben Speicherplatz wie die konventionelle Einbettungsmatrix, deren Größe vom Vokabular abhängt. Um dieses Problem zu lösen, stellen wir auch einen speichereffizienten Ansatz zur Konstruktion der Filtervektoren vor. Durch ein Experiment zur Rekonstruktion von vorgefertigten Wort-Einbettungen zeigen wir, dass unser ALONE ausreichend als Wortrepräsentation verwendet werden kann. Darüber hinaus führen wir Experimente in NLP-Anwendungsaufgaben durch: maschinelle Übersetzung und Textzusammenfassung. Wir kombinierten ALONE mit dem aktuellen Stand-der-Kunst-Modell für Encoder-Decoder-Aufgaben, dem Transformer, und erzielten vergleichbare Ergebnisse bei der WMT 2014 Englisch-Deutsch-Übersetzung und der DUC 2004 sehr kurzen Textzusammenfassung mit weniger Parametern.