BERT erhält ein Datum: Einführung von Transformatoren in die zeitliche Tagging

Zeitliche Ausdrücke in Texten spielen eine wichtige Rolle beim Sprachverständnis und ihre korrekte Identifizierung ist grundlegend für verschiedene Retrievals- und Natürlichsprachverarbeitungssysteme. Frühere Arbeiten haben sich langsam von regelbasierten Ansätzen zu neuronalen Architekturen gewandt, die in der Lage sind, Ausdrücke mit höherer Genauigkeit zu kennzeichnen. Dennoch können neuronale Modelle noch nicht auf dem gleichen Niveau wie ihre regelbasierten Gegenstücke zwischen verschiedenen Ausdruckstypen unterscheiden. In dieser Arbeit streben wir an, die geeignetste Transformer-Architektur für die gemeinsame zeitliche Kennzeichnung und Typklassifikation zu identifizieren, sowie den Einfluss von halbüberwachtem Training auf die Leistung dieser Systeme zu untersuchen. Auf Basis unseres Studiums von Token-Klassifikationsvarianten und Encoder-Decoder-Architekturen präsentieren wir ein Transformer-Encoder-Decoder-Modell, das das RoBERTa-Sprachmodell verwendet und als unser leistungsstärkstes System fungiert. Durch Ergänzung der Trainingsressourcen mit schwach gekennzeichneten Daten aus regelbasierten Systemen übertrifft unser Modell frühere Arbeiten in der zeitlichen Kennzeichnung und Typklassifikation, insbesondere bei seltenen Klassen. Unser Code und vorab trainierte Experimente sind unter folgender URL verfügbar: https://github.com/satya77/Transformer_Temporal_Tagger