17일 전

테이블과 텍스트에 대한 개방형 질의응답

Wenhu Chen, Ming-Wei Chang, Eva Schlinger, William Wang, William W. Cohen
테이블과 텍스트에 대한 개방형 질의응답
초록

열린 질문 답변(open question answering, QA)에서는 질문에 대한 답을 찾기 위해 관련 문서를 검색한 후 그 문서를 분석하는 방식을 사용한다. 대부분의 열린 QA 시스템은 비구조화된 텍스트에서 정보를 검색하는 것에만 초점을 맞추어 왔다. 본 연구에서는 처음으로 표형 데이터와 텍스트 데이터 양쪽 모두를 대상으로 한 열린 QA를 고려하며, 이 작업의 성능을 평가하기 위해 새로운 대규모 데이터셋인 Open Table-and-Text Question Answering(OTT-QA)를 제안한다. OTT-QA의 대부분의 질문은 표형 데이터와 비구조화된 텍스트 간의 다단계 추론(multi-hop inference)을 필요로 하며, 질문에 대한 증거는 두 가지 유형의 입력에 따라 다양한 방식으로 분산되어 존재하므로 증거 검색이 매우 어렵다. 기존의 반복적 검색기(iterative retriever)와 BERT 기반 리더를 사용한 베이스라인 모델은 정확한 일치(exact match) 점수가 10% 미만에 그친다. 이를 해결하기 위해 OTT-QA를 위한 증거 검색 및 통합 과제를 극복하기 위한 두 가지 새로운 기법을 제안한다. 첫 번째 기법은 '조기 융합(early fusion)'을 활용하여 여러 개의 높은 관련성을 가진 표형 및 텍스트 단위를 하나의 융합 �ブロック(fused block)로 묶는 것으로, 검색기에게 더 풍부한 맥락을 제공한다. 두 번째 기법은 다수의 검색된 증거 간의 상호의존성을 모델링하기 위해 전역-국소 희소 주의(global-local sparse attention)를 사용하는 크로스 블록 리더(cross-block reader)를 도입한다. 이러한 두 기법을 결합함으로써 성능이 크게 향상되어 정확한 일치 점수가 27%를 초과하는 수준까지 개선되었다.