Ein statutarisches Artikelabruf-Datensatz auf Französisch

Die automatische Retrieval von Gesetzesartikeln ist die Aufgabe, relevante Gesetzesartikel zu einer juristischen Frage automatisch zu identifizieren. Obwohl in den letzten Jahren Fortschritte in der Verarbeitung natürlicher Sprache erhebliches Interesse an zahlreichen juristischen Aufgaben geweckt haben, bleibt das Retrieval von Gesetzesartikeln aufgrund des Mangels an großskaligen und hochwertigen annotierten Datensätzen weitgehend unberührt. Um diese Engstelle zu überwinden, stellen wir den belgischen Datensatz für das Retrieval von Gesetzesartikeln (Belgian Statutory Article Retrieval Dataset, BSARD) vor, der aus über 1.100 juristischen Fragen in französischer Sprache besteht, die von erfahrenen Juristen mit relevanten Artikeln aus einer Sammlung von über 22.600 belgischen Gesetzesartikeln annotiert wurden. Anhand von BSARD bewerten wir mehrere state-of-the-art-Retrieval-Ansätze, sowohl lexikalische als auch dichte Architekturen, sowohl im zero-shot- als auch im überwachten Setup. Wir stellen fest, dass feinabgestimmte dichte Retrieval-Modelle andere Systeme deutlich überlegen sind. Unser bester Baseline-Modell erreicht eine R@100 von 74,8 %, was die Durchführbarkeit der Aufgabe vielversprechend erscheinen lässt und gleichzeitig zeigt, dass noch Verbesserungspotenzial besteht. Aufgrund der Spezifität des Domänen- und Aufgabenbereichs stellt BSARD eine einzigartige Herausforderung für zukünftige Forschung im Bereich der juristischen Informationsretrieval dar. Unser Datensatz und der Quellcode sind öffentlich verfügbar.