2달 전

CODAH: 상식을 위한 적대적으로 작성된 질문-답변 데이터셋

Michael Chen; Mike D'Arcy; Alisa Liu; Jared Fernandez; Doug Downey
CODAH: 상식을 위한 적대적으로 작성된 질문-답변 데이터셋
초록

상식 추론은 인공지능의 중요한 능력이지만, 상식을 테스트하는 도전적인 데이터셋을 구축하는 것은 어렵습니다. 최근의 대규모 사전 학습 언어 모델 기반 신경질문응답 시스템들은 이미 상식 지식 벤치마크에서 인간 수준에 가까운 성능을 달성했습니다. 그러나 이러한 시스템들은 인간 수준의 상식을 갖추고 있지는 않지만, 데이터셋의 한계를 활용하여 인간 수준의 점수를 얻을 수 있습니다.우리는 상식을 테스트하기 위한 적대적으로 구성된 평가 데이터셋인 CODAH(CODAH)를 소개합니다. CODAH는 동영상에서 관찰된 상황을 설명하는 문장 완성 질문을 사용하여 상식 지식을 테스트하는 최근 제안된 SWAG 데이터셋의 어려운 확장을 형성합니다. 더 어려운 데이터셋을 만들기 위해, 우리는 최신 신경질문응답 시스템들의 약점을 겨냥하도록 설계된 질문들을 작성하는 데 사용되는 새로운 질문 획득 절차를 도입했습니다. 이 절차에서는 교차 검증(cross-validation) 과정에서 미세 조정(fine-tuning) 전후로 모델이 올바르게 답하지 못한 질문 제출에 대해 작업자에게 보상을 제공합니다. 우리는 이 절차를 통해 2,800개의 질문을 생성하고, 여러 최신 질문 응답 시스템들의 성능을 우리의 데이터셋으로 평가했습니다. 그 결과, 인간의 성능(95.3%)과 BERT-Large 모델이 달성한 최고 기준 성능(67.5%) 사이에 유의미한 차이를 관찰할 수 있었습니다.

CODAH: 상식을 위한 적대적으로 작성된 질문-답변 데이터셋 | 최신 연구 논문 | HyperAI초신경