2달 전
CED: 문서에서 카탈로그 추출
Tong Zhu; Guoliang Zhang; Zechang Li; Zijian Yu; Junfei Ren; Mengsong Wu; Zhefeng Wang; Baoxing Huai; Pingfu Chao; Wenliang Chen

초록
문장별로 긴 문서에서 정보를 추출하는 것은 지치는 일이며 오류가 발생하기 쉽다. 목차는 자연스럽게 문서를 구간으로 나누고 정보적인 계층적 의미를 제공하여 검색 범위를 줄이는 데 도움이 된다. 그러나 외부 지식의 도움 없이는 목차를 추출하기 어렵다. 특정 템플릿을 따르는 문서의 경우 정규 표현식은 목차 추출에 실용적이다. 그러나 다양한 형식을 가진 다른 출처의 문서를 처리할 때 수작업으로 만든 휴리스틱은 적용할 수 없다. 이 문제를 해결하기 위해 우리는 대규모 수동으로 주석화된 코퍼스를 구축하였다. 이는 문서에서 목차(Catalog Extraction from Documents, CED)를 추출하는 첫 번째 데이터셋이다. 이 코퍼스 기반으로 우리는 문서를 목차 트리로 파싱하는 전환 기반 프레임워크를 제안한다. 실험 결과는 제안한 방법이 기준 시스템보다 우수하며 좋은 전송 능력을 보여주었다는 것을 입증한다. 우리는 CED 작업이 원시 텍스트 구간과 극도로 긴 문서에서의 정보 추출 작업 사이의 간극을 메울 수 있다고 믿는다. 데이터와 코드는 \url{https://github.com/Spico197/CatalogExtraction}에서 확인할 수 있다.