17일 전

장문형 질문 응답 개발의 주요 장벽들

Kalpesh Krishna, Aurko Roy, Mohit Iyyer
장문형 질문 응답 개발의 주요 장벽들
초록

장문형 질문 응답(long-form question answering, LFQA)의 과제는 주어진 질문과 관련된 문서를 검색하고, 이를 바탕으로 단락 수준의 답변을 생성하는 것이다. 최근 많은 모델이 LFQA에 대해 제안되었지만, 본 논문에서는 이 과제의 정의 자체가 현재 평가 및 데이터셋 구축에 있어 근본적인 도전 과제를 야기하고 있으며, 이로 인해 의미 있는 모델링 진전이 어려운 상황임을 보여준다. 이러한 문제들을 입증하기 위해, 우리는 ELI5 LFQA 데이터셋에서 최고 성능을 달성하기 위해 희소 주의(sparse attention)와 대조적 검색 학습(contrastive retriever learning)을 기반으로 한 새로운 시스템을 설계하였다. 비록 우리의 시스템이 공개 리더보드에서 1위를 기록했지만, 심층적 분석을 통해 다음과 같은 우려스러운 경향이 드러났다: (1) 시스템이 생성한 답변은 실제로 검색한 문서에 기반하지 않고 있으며, 문서에 대한 지속성(grounding)이 결여되어 있다; (2) ELI5 데이터셋에는 훈련 세트와 검증 세트 간에 상당한 중복이 존재하며, 최소 81% 이상의 검증 질문이 훈련 세트에서 의역된 형태로 등장한다; (3) ROUGE-L은 생성된 답변의 품질을 평가하는 데 의미 있는 지표가 아니며, 쉽게 조작될 수 있다; (4) 다른 텍스트 생성 작업에서 사용되는 인간 평가 방법은 LFQA에 있어서 신뢰할 수 없다. 본 논문은 이러한 각각의 문제를 완화하기 위한 제안을 제시하며, 향후 더 엄격한 LFQA 연구와 실질적인 진전을 이끌어내기를 기대한다.

장문형 질문 응답 개발의 주요 장벽들 | 최신 연구 논문 | HyperAI초신경