Besseres Lernen der internen Struktur von Wörtern für die Sequenzmarkierung

Charakterbasierte neuronale Modelle haben sich kürzlich als sehr nützlich für viele NLP-Aufgaben erwiesen. Es gibt jedoch einen Komplexitätsunterschied zwischen Methoden zur Lernrepräsentation von Sätzen und Wörtern. Während die meisten Charaktermodelle zur Lernrepräsentation von Sätzen tief und komplex sind, sind Modelle zur Lernrepräsentation von Wörtern flach und einfach. Zudem ist trotz umfangreicher Forschung zum Lernen von Charakter-Embeddings noch nicht klar, welche Art von Architektur am besten geeignet ist, um die Repräsentation von Charakters zu Wörtern zu erfassen. Um diese Fragen zu klären, untersuchen wir zunächst die Unterschiede zwischen Methoden zur Lernrepräsentation von Wörtern und Sätzen. Wir führen detaillierte Experimente und Vergleiche verschiedener state-of-the-art Faltungsmodelle durch und untersuchen auch die Vor- und Nachteile ihrer Bestandteile. Darüber hinaus schlagen wir IntNet vor, eine fischschwanzförmige breite Faltungsneuronenarchitektur ohne Abtastrate, die dazu dient, die interne Struktur von Wörtern durch Kombination ihrer Charaktere aus begrenzten, überwachten Trainingskorpora zu lernen. Wir bewerten unser vorgeschlagenes Modell anhand sechs sequenzbasierter Datensätze, darunter Named Entity Recognition (NER), Part-of-Speech Tagging (POS) und syntaktisches Chunking. Unsere eingehende Analyse zeigt, dass IntNet andere Charakter-Embedding-Modelle erheblich übertrifft und neue state-of-the-art Ergebnisse erzielt, ohne auf externe Kenntnisse oder Ressourcen zurückzugreifen.