2달 전
TLDR9+: 소셜 미디어 게시물의 극단적 요약을 위한 대규모 자원
Sajad Sotudeh; Hanieh Deilamsalehy; Franck Dernoncourt; Nazli Goharian

초록
최근 요약 시스템 개발 모델은 수백만 개의 매개변수로 구성되며, 모델 성능은 훈련 데이터의 충분성에 크게 의존합니다. 대부분의 기존 요약 코퍼스는 수천에서 100만 건의 데이터를 포함하고 있지만, 수백만 건 규모의 대규모 요약 데이터셋 생성은 아직 탐구되지 않았습니다. 실제로, 더 많은 데이터는 훈련 패턴을 미지의 데이터에 일반화하는 데 유리합니다. 본 논문에서는 Reddit 토론 포럼(https://github.com/sajastu/reddit_collector)에서 추출한 900만 건 이상의 훈련 인스턴스를 포함하는 대규모 요약 데이터셋인 TLDR9+를 소개합니다. 이 데이터셋은 극단적 요약(즉, 높은 압축 및 추상화를 통해 한 문장으로 요약 생성)을 수행하기 위해 특별히 수집되었으며, 이전에 제안된 데이터셋보다 두 배 이상 크습니다. 또한 우리는 한 단계 더 나아가 인간 주석자의 도움으로 TLDR9+에서 고품질 인스턴스를 샘플링하여 더욱 세부적인 데이터셋을 추출하고 이를 TLDRHQ 데이터셋이라고 명명하였습니다. 우리는 제안한 데이터셋에서 다양한 최신 요약 모델들의 성능을 분석하였습니다.