Wann hilft Pretraining? Bewertung von selbstüberwachtem Lernen für Recht und die CaseHOLD-Datenmenge

Während das selbstüberwachte Lernen in der Verarbeitung natürlicher Sprache rapide Fortschritte gemacht hat, bleibt unklar, wann Forscherinnen und Forscher auf ressourcenintensive, domain-spezifische Vortrainierung (Domain-Pretraining) zurückgreifen sollten. Seltsamerweise gibt es trotz der weit verbreiteten Auffassung, dass juristische Sprache einzigartig ist, nur wenige dokumentierte Fälle erheblicher Verbesserungen durch Domain-Pretraining. Wir vermuten, dass diese bisherigen Ergebnisse darauf zurückzuführen sind, dass bestehende juristische NLP-Aufgaben zu einfach sind und die Bedingungen nicht erfüllen, unter denen Domain-Pretraining tatsächlich hilfreich sein kann. Um dies zu adressieren, stellen wir zunächst CaseHOLD (Case Holdings On Legal Decisions) vor, eine neue Datensammlung mit über 53.000 Multiple-Choice-Fragen, die darauf abzielen, die relevanten Rechtsprechungsgrundsätze (Holding) einer zitierten Rechtsprechung zu identifizieren. Diese Aufgabe stellt eine grundlegende Herausforderung für Anwältinnen und Anwälte dar und ist sowohl juristisch bedeutungsvoll als auch aus Sicht der NLP anspruchsvoll (F1-Score von 0,4 bei Verwendung einer BiLSTM-Baseline). Zweitens bewerten wir die Leistungssteigerungen auf CaseHOLD und bestehenden juristischen NLP-Datensätzen. Während eine Transformer-Architektur (BERT), die auf einem allgemeinen Korpus (Google Books und Wikipedia) vortrainiert wurde, eine Verbesserung erzielt, zeigt die Domain-Pretraining mit einer maßgeschneiderten juristischen Vokabular- und einem Korpus aus etwa 3,5 Millionen Entscheidungen aller Gerichte in den USA – das größer ist als das Korpus, auf dem BERT vortrainiert wurde – die signifikantsten Leistungssteigerungen auf CaseHOLD (F1-Gewinn von 7,2 Prozent, was einer Verbesserung um 12 Prozent gegenüber BERT entspricht) sowie konsistente Verbesserungen bei zwei weiteren juristischen Aufgaben. Drittens zeigen wir, dass Domain-Pretraining gerechtfertigt ist, wenn die Aufgabe ausreichend Ähnlichkeit mit dem Vortrainingskorpus aufweist: Die Leistungssteigerung bei drei juristischen Aufgaben war direkt mit der Domänen-Spezifität der Aufgabe korreliert. Unsere Ergebnisse liefern Orientierung dafür, wann Forscherinnen und Forscher auf ressourcenintensive Vortrainierung zurückgreifen sollten, und belegen zudem, dass auch Transformer-basierte Architekturen Embeddings lernen, die auf eine charakteristische juristische Sprache hinweisen.