2달 전

TLDR9+: 소셜 미디어 게시물의 극단적 요약을 위한 대규모 자원

Sajad Sotudeh; Hanieh Deilamsalehy; Franck Dernoncourt; Nazli Goharian
TLDR9+: 소셜 미디어 게시물의 극단적 요약을 위한 대규모 자원
초록

최근 요약 시스템 개발 모델은 수백만 개의 매개변수로 구성되며, 모델 성능은 훈련 데이터의 충분성에 크게 의존합니다. 대부분의 기존 요약 코퍼스는 수천에서 100만 건의 데이터를 포함하고 있지만, 수백만 건 규모의 대규모 요약 데이터셋 생성은 아직 탐구되지 않았습니다. 실제로, 더 많은 데이터는 훈련 패턴을 미지의 데이터에 일반화하는 데 유리합니다. 본 논문에서는 Reddit 토론 포럼(https://github.com/sajastu/reddit_collector)에서 추출한 900만 건 이상의 훈련 인스턴스를 포함하는 대규모 요약 데이터셋인 TLDR9+를 소개합니다. 이 데이터셋은 극단적 요약(즉, 높은 압축 및 추상화를 통해 한 문장으로 요약 생성)을 수행하기 위해 특별히 수집되었으며, 이전에 제안된 데이터셋보다 두 배 이상 크습니다. 또한 우리는 한 단계 더 나아가 인간 주석자의 도움으로 TLDR9+에서 고품질 인스턴스를 샘플링하여 더욱 세부적인 데이터셋을 추출하고 이를 TLDRHQ 데이터셋이라고 명명하였습니다. 우리는 제안한 데이터셋에서 다양한 최신 요약 모델들의 성능을 분석하였습니다.

TLDR9+: 소셜 미디어 게시물의 극단적 요약을 위한 대규모 자원 | 최신 연구 논문 | HyperAI초신경