Beschriftungsspezifische Dokumentendarstellung für die Mehrfach-Label-Textklassifikation
{Liping Jing Boli Chen Lin Xiao Xin Huang}

Abstract
Die mehrfach-label-Textklassifizierung (Multi-label Text Classification, MLTC) zielt darauf ab, die am besten geeigneten Labels für ein gegebenes Dokument zu bestimmen. In diesem Paper stellen wir ein Label-Specific Attention Network (LSAN) vor, das eine label-spezifische Dokumentrepräsentation lernt. LSAN nutzt semantische Informationen der Labels, um die semantischen Beziehungen zwischen Labels und Dokumenten zu erfassen und so eine label-spezifische Dokumentrepräsentation zu konstruieren. Gleichzeitig wird die Self-Attention-Mechanismus eingesetzt, um die label-spezifische Dokumentrepräsentation aus der Inhaltsinformation des Dokuments zu identifizieren. Um die beiden oben genannten Komponenten nahtlos zu integrieren, wird eine adaptive Fusionsstrategie vorgeschlagen, die effektiv eine umfassende, label-spezifische Dokumentrepräsentation erzeugt, um einen mehrfach-label-Textklassifikator aufzubauen. Umfangreiche experimentelle Ergebnisse zeigen, dass LSAN konsistent die derzeit besten Methoden auf vier unterschiedlichen Datensätzen übertrifft, insbesondere bei der Vorhersage von seltenen (low-frequency) Labels. Der Quellcode und die Hyperparameter-Einstellungen werden veröffentlicht, um die Forschung anderer Wissenschaftler zu unterstützen.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| multi-label-text-classification-on-aapd | LSAN | P@1: 85.28 P@3: 61.12 P@5: 41.84 nDCG@3: 80.84 nDCG@5: 84.78 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.