11일 전

DEPLAIN: 문장 및 문서 간소화를 위한 내언어 간 단순어로의 번역을 포함한 독일어 평행 코퍼스

Regina Stodden, Omar Momen, Laura Kallmeyer
DEPLAIN: 문장 및 문서 간소화를 위한 내언어 간 단순어로의 번역을 포함한 독일어 평행 코퍼스
초록

문장 간단화는 복잡한 원문 문서나 문장을 대상 독자층에게 적합하도록 간단화하기 위한 내어 언어 번역 작업이다. 자동 문장 간단화 시스템의 성공 여부는 학습 및 평가에 사용되는 평행 데이터의 품질에 크게 의존한다. 독일어의 문장 간단화 및 문서 간단화 기술 발전을 위해 본 논문에서는 독일어의 '일반적 언어'(plain German, 독일어: Einfache Sprache)로 작성된 전문적이고 수작업으로 정렬된 평행 간단화 데이터셋인 DEplain을 제안한다. DEplain은 뉴스 도메인(약 500개의 문서 쌍, 약 13,000개의 문장 쌍)과 웹 도메인 코퍼스(약 150개의 정렬된 문서, 약 2,000개의 정렬된 문장 쌍)로 구성되어 있다. 또한, 정렬되지 않은 및 향후 게재될 평행 문서들을 효율적으로 통합할 수 있도록 웹 크롤러(Web harvester)를 구축하고 자동 정렬 방법을 실험하고 있다. 이러한 접근을 통해 웹 도메인 코퍼스를 동적으로 확장하고 있으며, 현재 약 750개의 문서 쌍과 약 3,500개의 정렬된 문장 쌍으로 확장되었다. 실험을 통해 DEplain을 활용해 트랜스포머 기반의 seq2seq 문장 간단화 모델을 학습시킬 경우 유망한 성능을 달성할 수 있음을 보였다. 본 연구에서 제안하는 코퍼스, 독일어에 적합화된 정렬 방법, 웹 크롤러 및 학습된 모델들을 모두 공개한다. 자세한 내용은 다음 링크에서 확인할 수 있다: https://github.com/rstodden/DEPlain.

DEPLAIN: 문장 및 문서 간소화를 위한 내언어 간 단순어로의 번역을 포함한 독일어 평행 코퍼스 | 최신 연구 논문 | HyperAI초신경