Task-bewusstes neuronales Sprachmodell zur Stärkung der Sequenzmarkierung

Linguistische Sequenzmarkierung ist ein allgemeiner Modellierungsansatz, der eine Vielzahl von Problemen umfasst, wie zum Beispiel die Teil-der-Rede-Tagging und die Erkennung benannter Entitäten. Neuere Fortschritte in neuronalen Netzen (NNs) ermöglichen es, zuverlässige Modelle ohne manuell gestaltete Merkmale aufzubauen. Dennoch ist es in vielen Fällen schwierig, ausreichend Annotationen zu erhalten, um diese Modelle zu trainieren. In dieser Studie entwickeln wir einen neuen neuronalen Rahmen, um das reichhaltige Wissen, das in Rohdatentexten verborgen ist, für die Sequenzmarkierungsaufgabe zu nutzen. Neben dem wortbasierten Wissen, das in vorgefertigten Wort-Einbettungen enthalten ist, werden charakterbewusste neuronale Sprachmodelle integriert, um wissensbasierte Informationen auf Zeichenebene zu extrahieren. Übertragungslernmethoden werden zudem angewendet, um verschiedene Komponenten zu vermitteln und das Sprachmodell zur Schlüsselinformation zu leiten. Verglichen mit früheren Methoden ermöglicht uns dieses spezifische Aufgabenwissen, ein kompakteres Modell zu verwenden und effizienteres Training durchzuführen. Im Gegensatz zu den meisten Übertragungslernmethoden basiert der vorgeschlagene Rahmen nicht auf zusätzlicher Aufsicht. Stattdessen extrahiert er Wissen aus der selbstenthaltenen Ordnungsinformation der Trainingssequenzen. Ausführliche Experimente an Standard-Datensätzen zeigen die Effektivität des Nutzens von zeichenbasiertem Wissen sowie die Effizienz des gemeinsamen Trainings. Zum Beispiel erreicht das Modell bei der CoNLL03 NER-Aufgabe nach etwa 6 Stunden Training auf einer einzelnen GPU einen F1-Wert von 91,71$\pm$0,10 ohne Verwendung zusätzlicher Annotationen.