프리트레이닝은 언제 도움이 되는가? 법학 분야 및 CaseHOLD 데이터셋을 위한 자기지도 학습 평가

자기지도 학습은 자연어 처리 분야에서 급속한 발전을 이뤘지만, 연구자들이 자원 집약적인 도메인 특화 사전 학습(도메인 사전 학습)에 참여해야 할 시점은 여전히 명확하지 않다. 법적 언어가 널리 독특하다고 여겨짐에도 불구하고, 법적 분야에서 도메인 사전 학습으로 인한 실질적인 성능 향상 사례는 거의 보고되지 않았다. 우리는 이러한 기존 결과가 기존 법적 자연어 처리 작업들이 너무 단순하여 도메인 사전 학습이 유의미한 성능 향상을 가져올 수 있는 조건을 충족하지 못하기 때문이라고 가정한다. 이를 해결하기 위해 우리는 먼저, 인용된 판례의 관련 판결(holding)을 식별하는 데 사용되는 53,000개 이상의 다중 선택 문제로 구성된 새로운 데이터셋인 CaseHOLD(Case Holdings On Legal Decisions)을 제안한다. 이 데이터셋은 변호사들에게 근본적인 업무이자, 자연어 처리 관점에서 법적으로 의미 있고 동시에 높은 난이도를 지닌 과제를 제공한다(기준 모델인 BiLSTM 기반에서 F1 점수는 0.4). 두 번째로, CaseHOLD과 기존 법적 자연어 처리 데이터셋에서의 성능 향상을 평가한다. 일반 코퍼스(구글 북스 및 위키백과)에서 사전 학습된 트랜스포머 아키텍처(BERT)는 성능 향상을 보였지만, 미국 내 모든 법원의 약 350만 건의 판결문 코퍼스를 활용하고 전용 법적 어휘를 도입한 도메인 사전 학습은 CaseHOLD에서 가장 두드러진 성능 향상을 보였다(기준 모델인 BERT 대비 F1 점수 7.2% 상승, 즉 12%의 성능 향상). 또한, 두 개의 다른 법적 과제에서도 일관된 성능 향상이 관찰되었다. 세 번째로, 도메인 사전 학습이 타당해지는 조건은 과제가 사전 학습 코퍼스와 충분한 유사성을 가질 경우임을 보여준다. 세 가지 법적 과제에서의 성능 향상 수준은 과제의 도메인 특수성과 직접적인 상관관계를 보였다. 본 연구의 결과는 연구자들이 자원 집약적인 사전 학습에 참여해야 할 시점을 판단하는 데 도움을 주며, 트랜스포머 기반 아키텍처 역시 독특한 법적 언어를 반영하는 임베딩을 학습함을 보여준다.