Methoden zur Balancierung bei der Mehrlabels-Textklassifikation mit langen-Schwanz-Klassenverteilung

Die mehrfach-labelbasierte Textklassifizierung stellt eine herausfordernde Aufgabe dar, da sie die Erfassung von Label-Abhängigkeiten erfordert. Diese Herausforderung verstärkt sich weiter, wenn die Klassenverteilung langschwanzartig ist. Resampling- und Re-Weighting-Ansätze sind gängige Methoden zur Bewältigung des Problems der Klassenungleichgewichts, erweisen sich jedoch als wenig effektiv, wenn neben dem Klassenungleichgewicht auch Label-Abhängigkeiten vorliegen, da sie zu einer Überproportionalität der häufigen Labels führen. In diesem Beitrag stellen wir die Anwendung ausgewogener Verlustfunktionen für die mehrfach-labelbasierte Textklassifizierung vor. Wir führen Experimente auf einem allgemeinen Domänen-Datensatz mit 90 Labels (Reuters-21578) sowie auf einem domänenspezifischen Datensatz aus PubMed mit 18.211 Labels durch. Dabei zeigen wir, dass eine verteilsbalancierte Verlustfunktion, die sowohl das Problem des Klassenungleichgewichts als auch das der Label-Abhängigkeiten inhärent berücksichtigt, die Leistung herkömmlicher Verlustfunktionen übertrifft. Verteilungsbalance-Methoden haben bereits im Bereich der Bilderkennung erfolgreich eingesetzt werden. Hier zeigen wir ihre Wirksamkeit im Bereich der natürlichen Sprachverarbeitung. Der Quellcode ist unter https://github.com/Roche/BalancedLossNLP verfügbar.