HyperAIHyperAI
il y a 17 jours

Un jeu de données pour la récupération d'articles législatifs en français

Antoine Louis, Gerasimos Spanakis
Un jeu de données pour la récupération d'articles législatifs en français
Résumé

La recherche d’articles législatifs consiste à récupérer automatiquement les articles juridiques pertinents à une question juridique donnée. Bien que les progrès récents en traitement du langage naturel aient suscité un vif intérêt pour de nombreuses tâches juridiques, la recherche d’articles législatifs reste largement peu explorée en raison du manque de jeux de données annotés à grande échelle et de haute qualité. Pour surmonter ce goulot d’étranglement, nous introduisons le Belgian Statutory Article Retrieval Dataset (BSARD), composé de plus de 1 100 questions juridiques en français, rédigées par des juristes expérimentés et annotées avec les articles pertinents provenant d’un corpus de plus de 22 600 articles de droit belge. Grâce à BSARD, nous évaluons plusieurs approches de recherche de pointe, incluant des architectures lexicales et des modèles à densité, dans des configurations zéro-shot et supervisées. Nous constatons que les modèles de recherche à densité fine-tunés surpassent significativement les autres systèmes. Notre meilleur modèle de base atteint un score de 74,8 % R@100, ce qui est prometteur en termes de faisabilité de la tâche et indique qu’il reste une marge importante d’amélioration. En raison de la spécificité du domaine et de la nature de la tâche, BSARD constitue un problème de recherche unique et stimulant pour les travaux futurs en récupération d’information juridique. Notre jeu de données et le code source sont accessibles publiquement.