2달 전
오픈 도메인 질문 답변을 위한 BERT 미세 조정의 데이터 증강
Wei Yang; Yuqing Xie; Luchen Tan; Kun Xiong; Ming Li; Jimmy Lin

초록
최근, 기성품 정보 검색(IR) 기술을 사용한 문서 검색과 BERT 리더의 간단한 조합이 위키백과에서 직접 질문 응답에 매우 효과적이라는 것이 발견되었습니다. 이 방법은 표준 벤치마크 데이터셋에서 이전 최신 기술보다 크게 개선된 결과를 보여주었습니다. 본 논문에서는 원격 감독을 활용하여 양적 사례와 음적 사례를 모두 이용하는 데이터 증강 기법을 제시합니다. 우리는 여러 데이터셋에서 BERT를 미세 조정(fine tuning)하기 위해 단계적인 접근 방식을 적용하였습니다. 이 과정은 테스트 데이터와 가장 "멀리" 있는 데이터부터 시작하여 가장 "가까이" 있는 데이터로 끝납니다. 실험 결과는 영어 QA 데이터셋에서 이전 접근 방식보다 큰 효과성을 입증하였으며, 두 개의 최근 중국어 QA 데이터셋에서 새로운 기준(baselines)을 설정하였습니다.