17일 전
노이즈 제거 기반 테이블-텍스트 검색을 통한 개방형 도메인 질문 응답
Deokhyung Kang, Baikjin Jung, Yunsu Kim, Gary Geunbae Lee

초록
표-텍스트 오픈도메인 질문 응답에서, 리트리버 시스템은 질문에 답변하기 위해 표와 텍스트에서 관련 증거를 검색한다. 기존의 표-텍스트 오픈도메인 질문 응답 연구는 두 가지 일반적인 과제를 안고 있다. 첫째, 학습 데이터셋에 존재하는 잘못된 양성 레이블(False-positive labels)로 인해 리트리버의 성능이 저하될 수 있다. 둘째, 표를 넘나드는 추론이 필요한 질문에 대해 적절한 증거를 제공하기 어려운 경우가 발생한다. 이러한 문제를 해결하기 위해 우리는 '정제된 표-텍스트 리트리버(Denoised Table-Text Retriever, DoTTeR)'를 제안한다. 본 연구에서는 잘못된 양성 레이블이 적은 정제된 학습 데이터셋을 활용한다. 이를 위해 오류 탐지 모델을 통해 질문과의 관련성 점수가 낮은 인스턴스를 제거하여 데이터셋을 정제한다. 이후, 표 수준의 순위 정보를 리트리버에 통합함으로써, 표를 넘나드는 추론이 필요한 질문에 대한 증거를 효과적으로 탐색할 수 있도록 지원한다. 이 순위 정보를 인코딩하기 위해, 열 내 최소값과 최대값을 식별할 수 있도록 순위 인지(column encoder)를 미세 조정한다. 실험 결과, DoTTeR은 검색 재현율과 후속 QA 작업 모두에서 강력한 기준 모델들을 크게 능가함을 확인하였다. 본 연구의 코드는 https://github.com/deokhk/DoTTeR 에 공개되어 있다.