
초록
텍스트의 기계 이해는 자연어 처리에서 중요한 문제입니다. 최근 발표된 데이터셋인 스탠퍼드 질문 응답 데이터셋(SQuAD, Stanford Question Answering Dataset)은 크라우드소싱을 통해 인간이 생성한 많은 실제 질문과 그 답변들을 제공합니다. SQuAD는 기계 이해 알고리즘을 평가하기 위한 도전적인 테스트베드를 제공하며, 이는 이전 데이터셋들과 비교하여 SQuAD의 답변들이 소수의 후보 답변 집합에서 나온 것이 아니고 길이가 다양하기 때문입니다. 우리는 이 작업을 위해 엔드투엔드 신경망 구조를 제안합니다. 이 구조는 우리가 이전에 텍스트 의미 관계 추론을 위해 제안한 매치-LSTM(match-LSTM) 모델과 Vinyals 등(2015)이 제안한 출력 토큰이 입력 시퀀스에서만 선택되도록 하는 시퀀스-투-시퀀스 모델인 포인터넷(Pointer Net)을 기반으로 합니다. 우리는 포인터넷을 우리의 작업에 사용하는 두 가지 방법을 제안합니다. 실험 결과, 우리의 두 모델 모두 Rajpurkar 등(2016)이 로지스틱 회귀와 수작업으로 만든 특징을 사용해 얻은 최고 성능보다 크게 우수함을 보여주었습니다.