HyperAIHyperAI
vor 2 Monaten

Label-aware Document Representation durch Hybride Aufmerksamkeit für Extrem Multilabel-Textklassifizierung

Xin Huang; Boli Chen; Lin Xiao; Liping Jing
Label-aware Document Representation durch Hybride Aufmerksamkeit für Extrem Multilabel-Textklassifizierung
Abstract

Die extreme mehrfache Textklassifizierung (XMTC) hat das Ziel, ein Dokument mit den meisten relevanten Etiketten aus einem extrem großen Etikettensatz zu versehen. Dies stellt insbesondere für die selteneren Etiketten eine Herausforderung dar, da nur wenige Trainingsdokumente zur Verfügung stehen, um einen Klassifikator zu erstellen. Diese Arbeit zielt darauf ab, die semantische Beziehung zwischen jedem Dokument und den extremen Etiketten besser zu erforschen, indem sowohl der Dokumentinhalt als auch die Etikettenkorrelation genutzt werden. Unser Ziel ist es, für jedes Dokument eine explizite etikettbewusste Darstellung mit einem hybriden Aufmerksamkeitsmodell tief neuronalen Netzes (LAHA) herzustellen. LAHA besteht aus drei Teilen. Der erste Teil verwendet einen mehrfachen Selbst-Aufmerksamkeitsmechanismus, um den Beitrag jedes Wortes zu den Etiketten zu erkennen. Der zweite Teil nutzt die Struktur der Etiketten und den Inhalt des Dokuments, um die semantische Verbindung zwischen Wörtern und Etiketten im gleichen latenten Raum zu bestimmen. Im dritten Teil wird eine adaptive Fusionsstrategie entwickelt, um die endgültige etikettbewusste Dokumentdarstellung zu erhalten, sodass die Essenz der ersten beiden Teile ausreichend integriert werden kann. Umfangreiche Experimente wurden auf sechs Benchmark-Datensätzen durchgeführt und mit den neuesten Methoden verglichen. Die Ergebnisse zeigen die Überlegenheit unserer vorgeschlagenen LAHA-Methode, insbesondere bei den selteneren Etiketten.

Label-aware Document Representation durch Hybride Aufmerksamkeit für Extrem Multilabel-Textklassifizierung | Neueste Forschungsarbeiten | HyperAI