
초록
자동 요약 기법은 뉴스 및 과학 논문 등 다양한 분야에서 연구되어 왔다. 그러나 미국 의회와 주 정부가 매년 수만 건의 법안을 공개하고 있음에도 불구하고, 법률 분야는 이 작업의 대상에서 제외되어 왔다. 본 논문에서는 미국 의회 및 캘리포니아 주 법안 요약을 위한 최초의 데이터셋인 BillSum을 소개한다(https://github.com/FiscalNote/BillSum). 이 데이터셋이 다른 분야보다 처리하기 더 어려운 특성을 갖는 이유를 설명하고, 신경망 문장 표현과 기존의 문맥적 특징을 고려한 추출형 요약 방법을 기준으로 평가한다. 마지막으로, 의회 법안을 기반으로 개발된 모델이 캘리포니아 주 법안의 요약에도 활용될 수 있음을 보여주며, 이 데이터셋을 기반으로 개발된 기법이 인간이 작성한 요약이 없는 주들로도 전이 가능함을 입증한다.