Verallgemeinerung der natürlichsprachlichen Analyse durch Span-Relationen-Darstellungen

Die Verarbeitung natürlicher Sprache umfasst eine Vielzahl von Aufgaben, bei denen Syntax, Semantik und Informationsgehalt vorhergesagt werden. In der Regel wird jeder Ausgabetyp mit speziell entwickelten Architekturen generiert. In dieser Arbeit liefern wir die einfache Erkenntnis, dass eine große Anzahl von Aufgaben in einem einheitlichen Format dargestellt werden kann, das aus der Beschriftung von Spannen und den Beziehungen zwischen Spannen besteht. Somit kann ein einziges aufgabenunabhängiges Modell für verschiedene Aufgaben verwendet werden. Wir führen umfangreiche Experimente durch, um diese Erkenntnis anhand von 10 unterschiedlichen Aufgaben zu überprüfen, die sich vom Abhängigkeitsparsing (Syntax) über die semantische Rollenzuordnung (Semantik), die Relationsextraktion (Informationsgehalt), die aspektbasierte Sentimentanalyse (Gefühlsausdruck) bis hin zu vielen anderen erstrecken. Dabei erreichen wir Leistungen, die vergleichbar sind mit denen der besten spezialisierten Modelle. Des Weiteren zeigen wir Vorteile des Multi-Task-Learnings auf und demonstrieren, dass die vorgeschlagene Methode es erleichtert, Unterschiede und Gemeinsamkeiten in der Art und Weise zu analysieren, wie das Modell verschiedene Aufgaben bearbeitet. Schließlich konvertieren wir diese Datensätze in ein einheitliches Format, um einen Benchmark zu erstellen, der als umfassendes Testfeld für die Bewertung zukünftiger Modelle zur generalisierten Analyse natürlicher Sprache dient.