FRAGE: Frequenzagnostische Wortrepräsentation

Ständige Wortschreibungen (auch als Word Embedding bekannt) sind ein grundlegendes Bauelement in vielen neuronale Netzwerke basierenden Modellen, die in der Verarbeitung natürlicher Sprache eingesetzt werden. Obwohl es allgemein anerkannt ist, dass Wörter mit ähnlicher Semantik im Einbettungsraum nahe beieinander liegen sollten, haben wir festgestellt, dass gelernte Wort-Einbettungen in mehreren Aufgaben tendenziell von der Worfrequenz beeinflusst sind: Die Einbettungen von häufig vorkommenden und selten vorkommenden Wörtern befinden sich in verschiedenen Teilregionen des Einbettungsraums, und die Einbettung eines seltenen und eines häufigen Wortes kann weit voneinander entfernt sein, selbst wenn sie semantisch ähnlich sind. Dies macht gelernte Wort-Einbettungen ineffektiv, insbesondere für seltene Wörter, und begrenzt dadurch die Leistung dieser neuronalen Netzwerkmodelle. In diesem Artikel entwickeln wir eine elegante, einfache und dennoch effektive Methode zur Lernung von \emph{FRequency-AGnostic word Embedding} (FRAGE) unter Verwendung von adversarialem Training. Wir haben umfassende Studien auf zehn Datensätzen durchgeführt, die vier Aufgaben der Verarbeitung natürlicher Sprache abdecken, darunter Wortähnlichkeit, Sprachmodellierung, maschinelle Übersetzung und Textklassifizierung. Die Ergebnisse zeigen, dass mit FRAGE eine höhere Leistung als bei den Baseline-Methoden in allen Aufgaben erzielt wird.