BillSum: Eine Korpus für die automatische Zusammenfassung von US-Gesetzesentwürfen

Automatische Zusammenfassungsmethoden wurden bereits auf einer Vielzahl von Domänen untersucht, darunter Nachrichten und wissenschaftliche Artikel. Dennoch wurde die Gesetzgebung bisher nicht für diese Aufgabe in Betracht gezogen, obwohl das US-Kongress und die Bundesstaaten jährlich Zehntausende von Gesetzesentwürfen veröffentlichen. In diesem Paper stellen wir BillSum vor, die erste Datensammlung für die Zusammenfassung von Gesetzesentwürfen des US-Kongresses und des Bundesstaates Kalifornien (https://github.com/FiscalNote/BillSum). Wir erläutern die Eigenschaften der Datensammlung, die sie schwieriger zu verarbeiten machen als andere Domänen. Anschließend benchmarken wir extraktive Methoden, die neuronale Satzrepräsentationen sowie traditionelle kontextuelle Merkmale berücksichtigen. Schließlich zeigen wir, dass auf Gesetzesentwürfen des US-Kongresses trainierte Modelle zur Zusammenfassung von Gesetzesentwürfen des Bundesstaates Kalifornien eingesetzt werden können, was belegt, dass Methoden, die auf dieser Datensammlung entwickelt wurden, auf Bundesstaaten übertragbar sind, die über keine menschlich erstellten Zusammenfassungen verfügen.