BillSum : un corpus pour la synthèse automatique de la législation américaine

Les méthodes de résumé automatique ont fait l’objet d’études dans divers domaines, notamment les actualités et les articles scientifiques. Toutefois, le domaine législatif n’avait jusqu’alors pas été envisagé pour cette tâche, malgré la publication annuelle par le Congrès américain et les gouvernements étatiques de dizaines de milliers de projets de loi. Dans cet article, nous introduisons BillSum, le premier ensemble de données dédié au résumé des projets de loi du Congrès américain et des lois de l’État de Californie (https://github.com/FiscalNote/BillSum). Nous expliquons les caractéristiques de cet ensemble de données qui le rendent plus difficile à traiter que d’autres domaines. Ensuite, nous évaluons des méthodes extraitives prenant en compte des représentations neuronales de phrases ainsi que des caractéristiques contextuelles traditionnelles. Enfin, nous démontrons que les modèles entraînés sur des projets de loi du Congrès peuvent être utilisés pour résumer des lois de Californie, montrant ainsi que les méthodes développées sur cet ensemble de données peuvent être transférées à d’autres États même en l’absence de résumés rédigés par des humains.