15일 전

HowSumm: 위키하우 기사에서 유도된 다중 문서 요약 데이터셋

Odellia Boni, Guy Feigenblat, Guy Lev, Michal Shmueli-Scheuer, Benjamin Sznajder, David Konopnicki
HowSumm: 위키하우 기사에서 유도된 다중 문서 요약 데이터셋
초록

우리는 쿼리 중심 다중 문서 요약(qMDS) 작업을 위한 새로운 대규모 데이터셋인 HowSumm을 제안한다. 이 데이터셋은 여러 출처에서 실용적인 지침을 생성하는 사용 사례를 타겟으로 한다. 이 사용 사례는 기존의 다중 문서 요약(MDS) 데이터셋이 다루는 사례들과 다름을 특징으로 하며, 교육 및 산업 현장에서의 적용 가능성이 높다. 우리는 기존의 인간이 작성한 qMDS 데이터셋에서 얻은 통계 정보를 활용하고, 자동화된 방법을 통해 wikiHow 웹사이트의 기사 및 해당 기사들이 인용한 출처들로부터 HowSumm을 구축하였다. 본 연구에서는 데이터셋의 생성 과정을 설명하고, 기존 요약 코퍼스들과 구별되는 독특한 특징들을 논의한다. 해당 데이터셋을 대상으로 한 추출형 및 생성형 요약 모델에 대한 자동 평가 및 인간 평가 결과를 통해, 여전히 개선 여지가 있음을 확인할 수 있었다.