17 天前

法语法定条文检索数据集

Antoine Louis, Gerasimos Spanakis
法语法定条文检索数据集
摘要

法定条文检索是指自动识别与法律问题相关法律条文的任务。尽管近年来自然语言处理技术的进展激发了对诸多法律任务的广泛关注,但法定条文检索仍因缺乏大规模、高质量的标注数据集而长期未受充分重视。为突破这一瓶颈,我们提出了比利时法定条文检索数据集(Belgian Statutory Article Retrieval Dataset, BSARD),该数据集包含1,100余条由资深法学家标注的法语法律问题,每个问题均关联一个由22,600余条比利时法律条文构成的语料库中的相关条文。基于BSARD,我们对多种前沿检索方法进行了基准测试,涵盖词法检索与密集向量表示架构,并在零样本与监督学习两种设置下进行评估。实验结果表明,经过微调的密集检索模型显著优于其他系统。我们提出的最优基线模型在R@100指标上达到74.8%,展现出该任务的可行性,同时也表明仍有较大的优化空间。由于其领域专属性与任务特异性,BSARD为未来法律信息检索研究提出了一个独特的挑战性问题。本研究的数据集与源代码已公开发布,供学术界使用。