11일 전
DEPLAIN: 문장 및 문서 간소화를 위한 내언어 간 단순어로의 번역을 포함한 독일어 평행 코퍼스
Regina Stodden, Omar Momen, Laura Kallmeyer

초록
문장 간단화는 복잡한 원문 문서나 문장을 대상 독자층에게 적합하도록 간단화하기 위한 내어 언어 번역 작업이다. 자동 문장 간단화 시스템의 성공 여부는 학습 및 평가에 사용되는 평행 데이터의 품질에 크게 의존한다. 독일어의 문장 간단화 및 문서 간단화 기술 발전을 위해 본 논문에서는 독일어의 '일반적 언어'(plain German, 독일어: Einfache Sprache)로 작성된 전문적이고 수작업으로 정렬된 평행 간단화 데이터셋인 DEplain을 제안한다. DEplain은 뉴스 도메인(약 500개의 문서 쌍, 약 13,000개의 문장 쌍)과 웹 도메인 코퍼스(약 150개의 정렬된 문서, 약 2,000개의 정렬된 문장 쌍)로 구성되어 있다. 또한, 정렬되지 않은 및 향후 게재될 평행 문서들을 효율적으로 통합할 수 있도록 웹 크롤러(Web harvester)를 구축하고 자동 정렬 방법을 실험하고 있다. 이러한 접근을 통해 웹 도메인 코퍼스를 동적으로 확장하고 있으며, 현재 약 750개의 문서 쌍과 약 3,500개의 정렬된 문장 쌍으로 확장되었다. 실험을 통해 DEplain을 활용해 트랜스포머 기반의 seq2seq 문장 간단화 모델을 학습시킬 경우 유망한 성능을 달성할 수 있음을 보였다. 본 연구에서 제안하는 코퍼스, 독일어에 적합화된 정렬 방법, 웹 크롤러 및 학습된 모델들을 모두 공개한다. 자세한 내용은 다음 링크에서 확인할 수 있다: https://github.com/rstodden/DEPlain.