2달 전

DROP: 문단에서 이산 추론이 필요한 읽기 이해 벤치마크

Dheeru Dua; Yizhong Wang; Pradeep Dasigi; Gabriel Stanovsky; Sameer Singh; Matt Gardner
DROP: 문단에서 이산 추론이 필요한 읽기 이해 벤치마크
초록

최근 읽기 이해 분야에서 빠른 발전이 이루어졌으며, 이 분야에서 가장 인기 있는 데이터셋들에서 시스템이 인간과 동등한 성능을 보이고 있습니다. 그러나 많은 연구들이 이러한 시스템의 취약성을 지적하며, 아직 해결해야 할 많은 문제가 남아 있음을 보여주고 있습니다. 우리는 새로운 영어 읽기 이해 벤치마크인 DROP(Discrete Reasoning Over Paragraphs)를 소개합니다. 이 벤치마크는 96,000개의 질문으로 구성되어 있으며, 시스템은 질문 내의 참조를 해결해야 하며, 이를 여러 입력 위치에 연결하고 더하기, 세기, 정렬 등의 이산 연산을 수행해야 합니다. 이러한 연산은 이전 데이터셋들에서 요구되었던 것보다 훨씬 포괄적인 단락 내용 이해가 필요합니다. 우리는 이 데이터셋에 읽기 이해와 의미 해석 문헌에서 제시된 최신 방법들을 적용하여, 최고 성능의 시스템이 일반화된 정확도 측정 기준에서 32.7% F1 점수를 얻었음을 보여주었습니다. 전문가들의 인간 성능은 96.0%입니다. 또한 우리는 읽기 이해 방법과 간단한 수치 추론을 결합한 새로운 모델을 제시하여 47.0% F1 점수를 달성하였습니다.