
초록
텍스트 이해의 발전은 특정 능력을 테스트하는 대규모 데이터셋에 의해 주도되어 왔습니다. 예를 들어, 최근에는 독해 능력을 평가하기 위한 데이터셋(Hermann 등, 2015)이 개발되었습니다. 본 연구에서는 LAMBADA 데이터셋(Paperno 등, 2016)에 집중합니다. 이 데이터셋은 즉시적인 문장보다 더 넓은 맥락을 요구하는 단어 예측 작업입니다. 우리는 LAMBADA를 독해 문제로 간주하고 신경망 기반의 독해 모델을 적용하였습니다. 이러한 모델들은 맥락에서 단어를 선택해야 하는 제약 조건이 있지만, LAMBADA에서의 최신 성과를 7.3%에서 49%로 크게 향상시켰습니다. 우리는 100개의 사례를 분석한 결과, 신경망 독자가 대화나 담화 힌트에 기반하여 맥락에서 이름을 선택하는 경우에 잘 수행하지만, 공유 참조 해결(coreference resolution)이나 외부 지식이 필요한 경우에는 어려움을 겪는다는 것을 발견하였습니다.