
초록
사전 훈련된 언어 모델은 추출형 질문 응답을 포함한 다양한 하류 언어 이해 작업에서 높은 품질의 문맥 기반 단어 임베딩을 제공함으로써 성능을 크게 향상시켰다. 그러나 질문 응답 모델을 훈련시키기 위해서는 특정 도메인에 대해 대량의 주석 데이터가 여전히 필요하다. 본 연구에서는 모델 성능을 향상시키기 위해 더 복잡한 질문-답변 쌍을 자동으로 생성하기 위한 협업형 자기 훈련 프레임워크 RGX를 제안한다. RGX는 마스크된 답변 추출 작업을 기반으로 하며, 답변 엔티티 인식기(Recognizer), 질문 생성기(Generator), 답변 추출기(Extractor)로 구성된 상호작용 학습 환경을 포함한다. 마스크된 엔티티가 포함된 문장이 주어지면, 생성기는 해당 엔티티 주변의 질문을 생성하고, 추출기는 생성된 질문과 원시 텍스트를 활용하여 마스크된 엔티티를 추출하도록 훈련된다. 이 프레임워크는 주석 없이도 어떤 텍스트 코퍼스에서도 질문 생성 및 답변 모델을 훈련할 수 있도록 한다. 실험 결과, RGX는 표준 질문 응답 벤치마크에서 최신 기술(SOTA) 사전 훈련된 언어 모델 및 전이 학습 접근법을 초월하며, 주어진 모델 크기와 전이 학습 설정 하에서 새로운 SOTA 성능을 달성하였다.