
초록
최근 강력한 사전 학습 언어 모델들이 읽기 이해 분야의 대부분 인기 있는 데이터셋에서 뛰어난 성능을 보여주었습니다. 이제 이 분야의 발전을 더욱 포괄적인 텍스트 추론으로 이끌기 위해 더 어려운 데이터셋을 소개할 때가 되었습니다. 본 논문에서는 표준화된 대학원 입학 시험에서 추출한 논리적 추론이 필요한 새로운 읽기 이해 데이터셋(ReClor)을 소개합니다. 기존 연구에 따르면, 사람이 주석을 단 데이터셋은 종종 모델이 텍스트를 진정으로 이해하지 않고도 높은 정확도를 달성하기 위해 활용되는 편향성을 포함하고 있습니다. ReClor에서 모델의 논리적 추론 능력을 포괄적으로 평가하기 위해, 우리는 편향된 데이터 포인트를 식별하여 이를 EASY 집합으로 분류하고 나머지를 HARD 집합으로 분류하는 방법을 제안합니다. 경험적 결과는 최신 모델들이 EASY 집합에서 높은 정확도로 데이터셋 내의 편향성을 효과적으로 포착할 수 있음을 보여줍니다. 그러나 HARD 집합에서는 거의 무작위 추측과 비슷한 저조한 성능을 보이는 것으로 나타나, 현재 모델들의 논리적 추론 능력을 근본적으로 개선하기 위한 추가 연구가 필요함을 시사합니다.