Label-Wise Document Pre-Training für die Multi-Label-Text-Klassifikation

Ein zentrales Herausforderung der mehrfach-label-Textklassifikation (MLTC) besteht darin, mögliche Label-Differenzen und Label-Korrelationen effektiv auszunutzen. In diesem Paper greifen wir diese Herausforderung an, indem wir die Methode des label-weisen Vortrainings (Label-Wise Pre-Training, LW-PT) entwickeln, um Dokumentdarstellungen mit label-aware-Informationen zu erzeugen. Der zentrale Ansatz basiert auf der Idee, dass ein mehrfach-label-Dokument als Kombination mehrerer label-weiser Darstellungen dargestellt werden kann und dass korrelierte Labels stets in denselben oder ähnlichen Dokumenten gemeinsam auftreten. LW-PT setzt diese Idee um, indem label-weise Dokumentklassifizierungsaufgaben konstruiert und label-weise Dokument-Encoder trainiert werden. Schließlich wird der vortrainierte label-weise Encoder an die spezifische MLTC-Aufgabe angepasst (fine-tuned). Umfassende experimentelle Ergebnisse bestätigen, dass die vorgeschlagene Methode gegenüber vorherigen State-of-the-Art-Modellen erhebliche Vorteile bietet und in der Lage ist, sinnvolle Label-Beziehungen zu entdecken. Der Quellcode wird veröffentlicht, um die Forschungsgemeinschaft bei weiteren Studien zu unterstützen.