11 天前

合同发现:数据集与少样本语义检索挑战及竞争性基线

Łukasz Borchmann, Dawid Wiśniewski, Andrzej Gretkowski, Izabela Kosmala, Dawid Jurkiewicz, Łukasz Szałkiewicz, Gabriela Pałka, Karol Kaczmarek, Agnieszka Kaliska, Filip Graliński
合同发现:数据集与少样本语义检索挑战及竞争性基线
摘要

我们提出了一项新的共享任务:从法律文本中进行语义检索,具体为“合同发现”(contract discovery),即在提供其他法律文件中若干相似条款示例的前提下,从文档中提取出相应的法律条款。该任务与传统的自然语言推理(NLI)以及法律信息抽取类共享任务存在显著差异,主要体现在其需识别文本片段而非单个文档、页面或段落。在任务规范说明之后,本文在统一框架下对多种解决方案进行了评估。研究结果表明,当前最先进的预训练编码器在该任务上表现不佳,难以获得令人满意的结果。相比之下,基于语言模型(Language Model, LM)的解决方案表现更优,尤其在采用无监督微调(unsupervised fine-tuning)策略时效果更为显著。除消融实验外,本文还探讨了在不同示例数量条件下,相关文本片段检测准确率的变化情况。此外,除公开发布数据集与基准结果外,我们还开源了专为法律领域优化的语言模型,以促进该方向的研究发展。

合同发现:数据集与少样本语义检索挑战及竞争性基线 | 最新论文 | HyperAI超神经