
초록
법적 작업 및 데이터셋은 언어 모델의 능력을 평가하는 기준으로 자주 사용됩니다. 그러나 공개적으로 이용 가능한 주석이 달린 데이터셋은 드뭅니다. 본 논문에서는 독일 소비자 계약에서 추출한 3,764개의 조항을 법 전문가들이 주석을 달고 법적으로 평가한 AGB-DE 코퍼스를 소개합니다. 이 데이터와 함께 잠재적으로 무효인 조항을 감지하는 작업에 대한 첫 번째 베이스라인을 제시하며, SVM 베이스라인과 세 가지 미세 조정된 오픈 언어 모델, 그리고 GPT-3.5의 성능을 비교합니다. 결과는 이 작업의 어려움을 보여주며, 어떤 접근 방식도 F1 점수가 0.54를 넘지 못했습니다. 미세 조정된 모델들은 정밀도 측면에서 종종 더 좋은 성능을 보였지만, GPT-3.5는 재현율 측면에서 다른 접근 방식들을 능가했습니다. 오류 분석은 허용되는 것과 그렇지 않은 것의 결정 경계보다 복잡한 조항의 올바른 해석이 주요 과제 중 하나일 수 있음을 시사합니다.