2달 전

WikiHow: 대규모 텍스트 요약 데이터셋

Mahnaz Koupaee; William Yang Wang
WikiHow: 대규모 텍스트 요약 데이터셋
초록

시퀀스-투-시퀀스 모델은 최근 요약 분야에서 최고의 성능을 달성하였습니다. 그러나 대규모 고품질 데이터셋이 많이 존재하지 않으며, 현재 사용 가능한 대부분의 데이터셋은 특정 글쓰기 스타일을 가진 뉴스 기사에 집중되어 있습니다. 또한, 내용을 더 깊은 수준으로 설명하는 추상적 인간 스타일 시스템은 더 높은 수준의 추상화를 요구하는 데이터가 필요합니다. 본 논문에서는 다양한 인간 저자들이 작성한 온라인 지식 기반에서 추출하고 구성된 23만 건 이상의 문서와 요약 쌍을 포함하는 'WikiHow' 데이터셋을 소개합니다. 이 문서들은 다양한 주제를 다루므로 고도로 다양화된 스타일을 나타냅니다. 우리는 WikiHow에서 기존 방법들의 성능을 평가하여 그 도전 과제를 제시하고, 이를 향상시키기 위한 몇 가지 베이스라인을 설정하였습니다.

WikiHow: 대규모 텍스트 요약 데이터셋 | 최신 연구 논문 | HyperAI초신경