Kontextuelle String-Embeddings für die Sequenzmarkierung

Neuere Fortschritte in der Sprachmodellierung mithilfe rekurrenter neuronaler Netze haben es ermöglicht, Sprache als Verteilung über Zeichen zu modellieren. Durch das Lernen, das nächste Zeichen anhand vorheriger Zeichen vorherzusagen, konnten solche Modelle gezeigt werden, um sprachliche Konzepte wie Wörter, Sätze, Subklause und sogar Stimmung automatisch zu internalisieren. In diesem Paper schlagen wir vor, die internen Zustände eines trainierten Zeichen-Sprachmodells zu nutzen, um eine neuartige Art von Wort-Embeddings zu erzeugen, die wir kontextuelle String-Embeddings nennen. Unsere vorgeschlagenen Embeddings weisen zwei charakteristische Eigenschaften auf: (a) Sie werden ohne expliziten Begriff von Wörtern trainiert und modellieren daher Wörter grundlegend als Folgen von Zeichen, und (b) sie sind kontextualisiert durch ihre umgebende Textumgebung, was bedeutet, dass dasselbe Wort je nach kontextueller Verwendung unterschiedliche Embeddings aufweist. Wir führen eine vergleichende Evaluation gegenüber früheren Embeddings durch und stellen fest, dass unsere Embeddings für nachgeschaltete Aufgaben äußerst nützlich sind: In vier klassischen Sequenzmarkierungsaufgaben übertrumpfen wir konsistent den bisherigen Stand der Technik. Insbesondere erreichen wir signifikant bessere Ergebnisse bei der Namensentitätserkennung (NER) für Englisch und Deutsch, wodurch wir neue Sollwerte für die F1-Scores im CoNLL03-Shared-Task berichten können. Wir stellen sämtlichen Code sowie vortrainierte Sprachmodelle in einem benutzerfreundlichen Framework der Forschungsgemeinschaft zur Verfügung, um die Reproduktion dieser Experimente und die Anwendung unserer vorgeschlagenen Embeddings auf weitere Aufgaben zu ermöglichen: https://github.com/zalandoresearch/flair