17일 전

매우 쉽게 느껴지는 불만스러운 자연어 질문 응답

Lin Pan, Rishav Chakravarti, Anthony Ferritto, Michael Glass, Alfio Gliozzo, Salim Roukos, Radu Florian, Avirup Sil
매우 쉽게 느껴지는 불만스러운 자연어 질문 응답
초록

질문 응답(QA) 분야의 기존 연구는 주로 알고리즘의 혁신성, 데이터 증강 기법, 또는 XLNet과 RoBERTa와 같은 점차 규모가 커지는 사전 학습 언어 모델에 집중되어 있다. 또한 QA 리더보드에 등재된 많은 시스템들은 실험을 재현할 수 있도록 지원하는 연구 문서를 제공하지 않아, 결과의 재현이 어려운 실정이다. 본 논문에서는 SQuAD과 같은 기준 데이터셋에서 최첨단 성능을 달성한 Attention-over-Attention 기법을 포함한 알고리즘적 구성 요소들과, 데이터 증강 및 앙상블 전략의 조합을 제시한다. 이러한 접근은 기존의 초과 인간 수준의 성능을 달성하는 데 기여했다. 그러나 최근 제안된 Natural Questions 기준 데이터셋에서 평가한 결과, 본 연구에서 사용한 BERT 기반 전이 학습 기법은 본 연구보다 400만 개의 예시 더 많은 데이터로 훈련된 기존 최고 성능 시스템보다 1.9 F1 점수 높은 성능을 보였다. 이에 더해 앙상블 전략을 추가하면 성능이 추가로 2.3 F1 점수 향상되며, 이는 단순한 전이 학습이 여전히 매우 강력한 기반 기법임을 시사한다.