2달 전

LCSTS: 대규모 중국어 짧은 텍스트 요약 데이터셋

Baotian Hu; Qingcai Chen; Fangze Zhu

초록

자동 텍스트 요약은 대규모 텍스트 요약 데이터셋의 부족으로 인해 매우 어려운 문제로 널리 인정받고 있습니다. 전체 텍스트에 대한 대규모 요약을 구축하는 데 큰 도전이 있기 때문입니다. 본 논문에서는 중국 마이크로블로그 사이트인 신타이웨이보(新浪微網)에서 수집한 200만 건 이상의 실제 중국어 짧은 텍스트와 각 텍스트 저자가 제공한 짧은 요약으로 구성된 대규모 중국어 짧은 텍스트 요약 데이터셋을 소개합니다. 이 데이터셋은 공개적으로 제공되고 있습니다({http://icrc.hitsz.edu.cn/Article/show/139.html}). 또한, 10,666개의 짧은 요약과 해당 짧은 텍스트 간의 관련성을 수작업으로 태깅하였습니다. 이 코퍼스를 기반으로, 우리는 반복 신경망을 사용하여 요약 생성을 수행하고 유망한 결과를 달성하였습니다. 이는 제안된 코퍼스가 짧은 텍스트 요약 연구에 유용함을 보여주며, 해당 주제에 대한 후속 연구를 위한 기준점도 제공합니다.