HyperAIHyperAI

Command Palette

Search for a command to run...

Methoden zur Balancierung bei der Mehrlabels-Textklassifikation mit langen-Schwanz-Klassenverteilung

Yi Huang Buse Giledereli Abdullatif Köksal Arzucan Özgür Elif Ozkirimli

Zusammenfassung

Die mehrfach-labelbasierte Textklassifizierung stellt eine herausfordernde Aufgabe dar, da sie die Erfassung von Label-Abhängigkeiten erfordert. Diese Herausforderung verstärkt sich weiter, wenn die Klassenverteilung langschwanzartig ist. Resampling- und Re-Weighting-Ansätze sind gängige Methoden zur Bewältigung des Problems der Klassenungleichgewichts, erweisen sich jedoch als wenig effektiv, wenn neben dem Klassenungleichgewicht auch Label-Abhängigkeiten vorliegen, da sie zu einer Überproportionalität der häufigen Labels führen. In diesem Beitrag stellen wir die Anwendung ausgewogener Verlustfunktionen für die mehrfach-labelbasierte Textklassifizierung vor. Wir führen Experimente auf einem allgemeinen Domänen-Datensatz mit 90 Labels (Reuters-21578) sowie auf einem domänenspezifischen Datensatz aus PubMed mit 18.211 Labels durch. Dabei zeigen wir, dass eine verteilsbalancierte Verlustfunktion, die sowohl das Problem des Klassenungleichgewichts als auch das der Label-Abhängigkeiten inhärent berücksichtigt, die Leistung herkömmlicher Verlustfunktionen übertrifft. Verteilungsbalance-Methoden haben bereits im Bereich der Bilderkennung erfolgreich eingesetzt werden. Hier zeigen wir ihre Wirksamkeit im Bereich der natürlichen Sprachverarbeitung. Der Quellcode ist unter https://github.com/Roche/BalancedLossNLP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Methoden zur Balancierung bei der Mehrlabels-Textklassifikation mit langen-Schwanz-Klassenverteilung | Paper | HyperAI