15일 전
문단 기반 Transformer 사전 훈련을 통한 다문장 추론
Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti

초록
질의 응답 선택(AS2)이나 사실 검증과 같은 추론 작업은 일반적으로 트랜스포머 기반 모델을 개별 문장 쌍 분류기로 미세조정하여 해결한다. 최근 연구에서는 여러 후보 문장 간의 의존 관계를 함께 모델링함으로써 이러한 작업이 향상됨을 보여주었다. 본 논문에서는 먼저, 대표적인 사전 훈련된 트랜스포머 모델이 다중 후보 추론 작업에 대해 미세조정을 수행할 때 성능이 낮은 것을 확인한다. 이후 우리는 다수의 입력 문장 간의 단락 수준 의미를 모델링하는 새로운 사전 훈련 목적함수를 제안한다. 세 개의 AS2 데이터셋과 하나의 사실 검증 데이터셋에 대한 평가 결과, 본 연구에서 제안하는 사전 훈련 기법이 다중 후보 추론 작업에 공동 모델로 사용되는 트랜스포머 모델뿐 아니라, 이러한 작업의 문장 쌍 형식에 대해 크로스 인코더로 사용되는 경우에도 기존 기법들보다 우수함을 입증한다. 본 연구의 코드 및 사전 훈련된 모델은 https://github.com/amazon-research/wqa-multi-sentence-inference 에 공개된다.