Multitask Semi-Supervised Learning für klassenunbalancierte Diskurs-Klassifikation

Mit der Entwicklung von Labeling-Schemata im Laufe der Zeit können kleinste Unterschiede dazu führen, dass Datensätze, die auf älteren Schemata basieren, nicht mehr verwendbar sind. Dies erschwert es Forschern, auf vorherige Annotationen aufzubauen und führt insbesondere im Bereich des Diskurslernens zu einer Vielzahl kleiner, klassenungleicher Datensätze. In dieser Arbeit zeigen wir, dass ein Multitask-Lernansatz es ermöglicht, Diskursdatensätze aus ähnlichen und unterschiedlichen Domänen zu kombinieren, um die Diskursklassifikation zu verbessern. Wir erreichen eine Steigerung des Micro F1-Scores um 4,9 % gegenüber aktuellen State-of-the-Art-Benchmarks auf dem NewsDiscourse-Datensatz, einem der größten kürzlich veröffentlichten Diskursdatensätze. Dieser Fortschritt beruht teilweise auf den Labelkorrelationen zwischen Aufgaben, die die Leistung für unterrepräsentierte Klassen verbessern. Zudem präsentieren wir eine umfassende Übersicht über zusätzliche Techniken, die zur Bewältigung ressourcenarmer Probleme im Bereich der NLP vorgeschlagen wurden, und zeigen, dass in unserer Anwendung keine dieser Ansätze die Klassifikationsgenauigkeit steigern kann.