Großmaßstäbliche Mehrfachbeschriftung von Texten in der EU-Legislation

Wir betrachten die Large-Scale Multi-Label Text Classification (LMTC) im Rechtsbereich. Wir veröffentlichen einen neuen Datensatz mit 57.000 legislativen Dokumenten aus EURLEX, die mit etwa 4.300 EUROVOC-Labels annotiert sind und für LMTC sowie für Few-Shot- und Zero-Shot-Lernen geeignet sind. Durch das Testen verschiedener neuronaler Klassifikatoren zeigen wir, dass BIGRUs mit labelweiser Aufmerksamkeit besser als andere aktuelle Methoden der Standes der Technik performen. Domainspezifische WORD2VEC- und kontextsensitive ELMO-Einbettungen verbessern die Leistung zusätzlich. Wir stellen außerdem fest, dass sich auf bestimmte Bereiche der Dokumente zu konzentrieren ausreicht. Dies ermöglicht es uns, die maximale Textlänge von BERT zu umgehen und BERT feinzujustieren, wodurch wir in allen Fällen außer bei Zero-Shot-Lernen die besten Ergebnisse erzielen.