17일 전

SCDE: 시험에서 유래한 고품질의 오답을 갖춘 문장 클로즈 데이터셋

Xiang Kong, Varun Gangal, Eduard Hovy
SCDE: 시험에서 유래한 고품질의 오답을 갖춘 문장 클로즈 데이터셋
초록

SCDE를 소개합니다. 이는 문장 예측을 통해 계산 모델의 성능을 평가하기 위한 데이터셋입니다. SCDE는 공공 학교 영어 시험에서 수집한 인간이 생성한 문장 클로즈(문장 빈칸 채우기) 데이터셋입니다. 본 작업은 모델이 공통 후보 집합에서 영어 교사들이 설계한 오답(혼란 요소)을 포함한 여러 빈칸을 채워야 하는 것을 요구합니다. 실험 결과, 이 과제는 바로 옆 문장의 국소적 맥락을 넘어서 비국소적이고 담론 수준의 맥락을 활용해야 함을 보여줍니다. 빈칸들은 서로 연관되어 함께 해결되어야 하며, 상호간에 맥락을 크게 저해합니다. 또한, 제거 실험(ablation study)을 통해 오답의 품질이 높고 과제의 난이도를 더욱 높이고 있음을 확인할 수 있습니다. 실험 결과, 최첨단 모델(72%)과 인간(87%) 사이에 명확한 성능 격차가 있음을 보여주며, 향후 모델들이 이 격차를 줄이도록 유도하는 계기가 됩니다.