
초록
우리는 의학 분야의 기계 이해를 위한 새로운 데이터셋을 제시합니다. 이 데이터셋은 임상 사례 보고서와 약 10만 개의 해당 사례에 대한 공백 채우기 질문을 사용합니다. 우리는 여러 베이스라인과 최신 신경망 리더를 이 데이터셋에 적용하여, 최고의 인간 리더와 기계 리더 간에 상당한 성능 차이(20% F1 점수)가 있음을 관찰하였습니다. 우리는 성공적인 답변을 위해 필요한 기술을 분석하고, 적용 가능한 기술에 따라 독자들의 성능이 어떻게 변화하는지를 보여줍니다. 우리는 도메인 지식과 객체 추적을 활용한 추론이 가장 자주 요구되는 기술이며, 생략된 정보 인식과 시공간 추론이 기계에게 가장 어려운 기술임을 발견하였습니다.