17일 전

LeNER-Br: 브라질 법률 텍스트에서의 명명된 실체 인식을 위한 데이터셋

{Teófilo E. de Campos, Samuel Couto, Pedro H. Luz de Araujo, Paulo Bermejo, Matheus Stauffer, Renato R. R. de Oliveira}
초록

명명된 엔터티 인식(Named Entity Recognition, NER) 시스템은 법률 문서에서 정보를 추출할 잠재력을 지니고 있으며, 이는 정보 검색 및 의사결정 과정을 향상시킬 수 있다. 본 논문에서는 브라질 법률 문서에 대한 명명된 엔터티 인식을 위한 데이터셋을 제시한다. 다른 포르투갈어 데이터셋들과 달리, 본 데이터셋은 전적으로 법률 문서로 구성되어 있다. 개인, 장소, 시간, 조직 등의 태그 외에도, 법률 및 법적 사건과 같은 특수한 엔터티 태그를 포함하고 있다. 기준 성능을 설정하기 위해 먼저 다른 포르투갈어 데이터셋인 Paramopama에 대해 실험을 수행하였다. 그 결과, LSTM-CRF 모델이 이전에 보고된 성능보다 유의미하게 뛰어난 결과를 도출함을 확인하였다. 이후 본 데이터셋을 기반으로 LSTM-CRF 모델을 재학습한 결과, 법률(법령) 엔터티에 대해 F1 점수는 97.04%, 법적 사건 엔터티에 대해서는 88.82%를 각각 기록하였다. 이러한 결과는 제안된 데이터셋이 법률 분야 응용에 실용 가능함을 보여준다.

LeNER-Br: 브라질 법률 텍스트에서의 명명된 실체 인식을 위한 데이터셋 | 최신 연구 논문 | HyperAI초신경