Command Palette
Search for a command to run...
Großmaßstäbliche Mehrfachbeschriftung von Texten in der EU-Legislation
Großmaßstäbliche Mehrfachbeschriftung von Texten in der EU-Legislation
Ilias Chalkidis Manos Fergadiotis Prodromos Malakasiotis Ion Androutsopoulos
Zusammenfassung
Wir betrachten die Large-Scale Multi-Label Text Classification (LMTC) im Rechtsbereich. Wir veröffentlichen einen neuen Datensatz mit 57.000 legislativen Dokumenten aus EURLEX, die mit etwa 4.300 EUROVOC-Labels annotiert sind und für LMTC sowie für Few-Shot- und Zero-Shot-Lernen geeignet sind. Durch das Testen verschiedener neuronaler Klassifikatoren zeigen wir, dass BIGRUs mit labelweiser Aufmerksamkeit besser als andere aktuelle Methoden der Standes der Technik performen. Domainspezifische WORD2VEC- und kontextsensitive ELMO-Einbettungen verbessern die Leistung zusätzlich. Wir stellen außerdem fest, dass sich auf bestimmte Bereiche der Dokumente zu konzentrieren ausreicht. Dies ermöglicht es uns, die maximale Textlänge von BERT zu umgehen und BERT feinzujustieren, wodurch wir in allen Fällen außer bei Zero-Shot-Lernen die besten Ergebnisse erzielen.