HyperAI

Abstract

Mit der Entwicklung von Labeling-Schemata im Laufe der Zeit können kleinste Unterschiede dazu führen, dass Datensätze, die auf älteren Schemata basieren, nicht mehr verwendbar sind. Dies erschwert es Forschern, auf vorherige Annotationen aufzubauen und führt insbesondere im Bereich des Diskurslernens zu einer Vielzahl kleiner, klassenungleicher Datensätze. In dieser Arbeit zeigen wir, dass ein Multitask-Lernansatz es ermöglicht, Diskursdatensätze aus ähnlichen und unterschiedlichen Domänen zu kombinieren, um die Diskursklassifikation zu verbessern. Wir erreichen eine Steigerung des Micro F1-Scores um 4,9 % gegenüber aktuellen State-of-the-Art-Benchmarks auf dem NewsDiscourse-Datensatz, einem der größten kürzlich veröffentlichten Diskursdatensätze. Dieser Fortschritt beruht teilweise auf den Labelkorrelationen zwischen Aufgaben, die die Leistung für unterrepräsentierte Klassen verbessern. Zudem präsentieren wir eine umfassende Übersicht über zusätzliche Techniken, die zur Bewältigung ressourcenarmer Probleme im Bereich der NLP vorgeschlagen wurden, und zeigen, dass in unserer Anwendung keine dieser Ansätze die Klassifikationsgenauigkeit steigern kann.

Benchmarks

Benchmark	Methodik	Metriken
text-classification-on-newsdiscourse	MT-Mac (Spangher et al., 2021)	macro F1: 63.46
text-classification-on-newsdiscourse	MT-Mic (Spangher et al., 2021)	macro F1: 61.89
text-classification-on-newsdiscourse	Human (Post-Rec.) (Spangher et al., 2021)	macro F1: 73.69
text-classification-on-newsdiscourse	Human (Blind) (Spangher et al., 2021)	macro F1: 46.18

Multitask Semi-Supervised Learning für klassenunbalancierte Diskurs-Klassifikation

{Lingjia Deng Sz-Rung Shiang Jonathan May Alexander Spangher}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Multitask Semi-Supervised Learning für klassenunbalancierte Diskurs-Klassifikation

{Lingjia Deng Sz-Rung Shiang Jonathan May Alexander Spangher}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters