2달 전

DebateSum: 대규모 논쟁 채굴 및 요약 데이터셋

Allen Roush; Arvind Balaji
DebateSum: 대규모 논쟁 채굴 및 요약 데이터셋
초록

논증 채굴(Argument Mining) 분야의 이전 연구들은 자동 토론 시스템에 대한 잠재적 응용 가능성을 자주 언급해 왔습니다. 그러나 이러한 초점에도 불구하고, 경쟁적인 공식 토론에서 발견되는 문제에 자연어 처리 기술을 적용한 데이터셋이나 모델은 거의 존재하지 않습니다. 이를 해결하기 위해, 우리는 DebateSum 데이터셋을 소개합니다. DebateSum은 187,386개의 고유한 증거 자료와 해당 논증 및 추출 요약으로 구성되어 있습니다. DebateSum은 National Speech and Debate Association(국립 연설 및 토론 협회)의 참가자들이 7년 동안 수집한 데이터를 사용하여 만들어졌습니다. 우리는 여러 트랜스포머 요약 모델을 훈련시켜 DebateSum에서의 요약 성능을 벤치마킹했습니다. 또한, DebateSum에서 훈련된 fastText 단어 벡터인 debate2vec를 도입하였습니다. 마지막으로, 현재 National Speech and Debate Association 회원들이 널리 활용하고 있는 이 데이터셋을 위한 검색 엔진을 소개합니다. DebateSum 검색 엔진은 일반 대중에게도 제공되며, 다음 링크에서 이용할 수 있습니다: http://www.debate.cards

DebateSum: 대규모 논쟁 채굴 및 요약 데이터셋 | 최신 연구 논문 | HyperAI초신경