7일 전

SIMARA: 전체 페이지에서 키-값 정보 추출을 위한 데이터베이스

Solène Tarride, Mélodie Boillet, Jean-François Moufflet, Christopher Kermorvant
SIMARA: 전체 페이지에서 키-값 정보 추출을 위한 데이터베이스
초록

우리는 고대 수기 문서에서 정보 추출을 위한 새로운 데이터베이스를 제안한다. 이 코퍼스는 18세기부터 20세기까지의 여섯 가지 다른 시리즈에서 수집한 총 5,393건의 찾기 안내서( finding aids)를 포함하고 있다. 찾기 안내서는 오래된 기록물을 설명하는 메타데이터를 담고 있는 수기 문서로, 프랑스 국립기록관(National Archives of France)에 보관되어 있으며, 기록 보관사들이 기록 문서를 식별하고 검색하는 데 사용된다. 각 문서는 페이지 단위로 주석이 달려 있으며, 추출할 수 있는 일곱 가지 필드를 포함하고 있다. 그러나 각 필드의 위치 정보는 제공되지 않아, 본 데이터셋은 정보 추출을 위한 세그멘테이션 불필요한 시스템에 대한 연구를 촉진하도록 설계되었다. 우리는 엔드투엔드 정보 추출을 위해 트랜스포머(Transformer) 아키텍처 기반의 모델을 제안하며, 향후 연구들과의 공정한 비교를 보장하기 위해 학습, 검증, 테스트용 세 가지 데이터셋을 제공한다. 본 데이터베이스는 https://zenodo.org/record/7868059에서 무료로 접근 가능하다.

SIMARA: 전체 페이지에서 키-값 정보 추출을 위한 데이터베이스 | 최신 연구 논문 | HyperAI초신경