11일 전

계약 탐지: 데이터셋 및 경쟁적인 베이스라인을 제공하는 소수 샘플 세미틱 검색 챌린지

Łukasz Borchmann, Dawid Wiśniewski, Andrzej Gretkowski, Izabela Kosmala, Dawid Jurkiewicz, Łukasz Szałkiewicz, Gabriela Pałka, Karol Kaczmarek, Agnieszka Kaliska, Filip Graliński
계약 탐지: 데이터셋 및 경쟁적인 베이스라인을 제공하는 소수 샘플 세미틱 검색 챌린지
초록

우리는 법률 문서에서 의미적 검색을 수행하는 새로운 공동 과제를 제안한다. 이 과제는 '계약 발견(Contract Discovery)'이라고 불리며, 다른 법률 문서에서 제공된 유사한 조항의 몇 가지 예시를 바탕으로, 문서 내에서 법률 조항을 추출하는 것을 목표로 한다. 이 과제는 기존의 NLI(Natural Language Inference) 및 법률 정보 추출(shared task)와 크게 다르다. 특히, 단일 문서, 페이지 또는 단락을 식별하는 것이 아니라, 관련 텍스트 구간(text span)을 식별해야 한다는 점에서 차이가 있다. 제안된 과제의 정의를 바탕으로, 해당 분야의 방법론을 통합된 프레임워크 내에서 다양한 해결책에 대한 평가가 이루어졌다. 평가 결과, 최신의 사전 학습된 인코더 모델들은 제안된 과제에서 만족스러운 성능을 제공하지 못하는 것으로 나타났다. 반면, 언어 모델(Language Model, LM) 기반 접근법은 특히 비지도 미세조정(unsupervised fine-tuning)을 적용할 경우 더 우수한 성능을 보였다. 추가적으로, 아블레이션 연구를 통해 제공된 예시 수에 따라 관련 텍스트 조각의 탐지 정확도가 어떻게 달라지는지에 대한 질문을 다루었다. 본 연구에서는 데이터셋과 기준 결과를 공개함과 동시에, 법률 분야에 특화된 언어 모델도 공개하여 연구 공동체의 활용을 지원하였다.

계약 탐지: 데이터셋 및 경쟁적인 베이스라인을 제공하는 소수 샘플 세미틱 검색 챌린지 | 최신 연구 논문 | HyperAI초신경