17일 전
하이브리드QA: 표형 및 텍스트 데이터에 대한 다단계 질문 응답을 위한 데이터셋
Wenhu Chen, Hanwen Zha, Zhiyu Chen, Wenhan Xiong, Hong Wang, William Wang

초록
기존의 질문-응답 데이터셋은 텍스트 정보 또는 지식 기반(KB)/표 정보 중 하나에만 기반하여 동질적 정보를 다루는 데 집중하고 있다. 그러나 인간의 지식은 다양한 형식으로 분산되어 있으므로, 동질적 정보만을 사용할 경우 심각한 커버리지 문제에 직면할 수 있다. 이러한 격차를 보완하기 위해, 우리는 이질적 정보를 종합적으로 활용해야 하는 새로운 대규모 질문-응답 데이터셋인 HybridQA(https://github.com/wenhuchen/HybridQA)를 제안한다. 각 질문은 위키백과의 표와 해당 표 내 엔티티와 연결된 다수의 자유 형식(corpus) 문서와 연결되어 있으며, 질문은 표 정보와 텍스트 정보를 모두 종합적으로 활용해야만 답할 수 있도록 설계되었다. 즉, 어느 한 형태의 정보만으로는 질문을 해결할 수 없다. 우리는 세 가지 다른 모델을 실험적으로 평가하였다: 1) 표 정보만을 사용하는 모델, 2) 텍스트 정보만을 사용하는 모델, 3) 이질적 정보를 통합하여 답을 도출하는 하이브리드 모델. 실험 결과, 두 가지 베이스라인 모델의 EM(Exact Match) 점수는 20% 미만에 그쳤으나, 하이브리드 모델은 40% 이상의 EM 점수를 달성하였다. 이 격차는 HybridQA에서 이질적 정보의 통합이 필수적임을 시사한다. 그러나 하이브리드 모델의 성능은 여전히 인간의 성능에 크게 미치지 못하고 있다. 따라서 HybridQA는 이질적 정보를 활용한 질문-응답 연구를 위한 도전적인 기준점으로 활용될 수 있다.