15일 전

문단 기반 Transformer 사전 훈련을 통한 다문장 추론

Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti
문단 기반 Transformer 사전 훈련을 통한 다문장 추론
초록

질의 응답 선택(AS2)이나 사실 검증과 같은 추론 작업은 일반적으로 트랜스포머 기반 모델을 개별 문장 쌍 분류기로 미세조정하여 해결한다. 최근 연구에서는 여러 후보 문장 간의 의존 관계를 함께 모델링함으로써 이러한 작업이 향상됨을 보여주었다. 본 논문에서는 먼저, 대표적인 사전 훈련된 트랜스포머 모델이 다중 후보 추론 작업에 대해 미세조정을 수행할 때 성능이 낮은 것을 확인한다. 이후 우리는 다수의 입력 문장 간의 단락 수준 의미를 모델링하는 새로운 사전 훈련 목적함수를 제안한다. 세 개의 AS2 데이터셋과 하나의 사실 검증 데이터셋에 대한 평가 결과, 본 연구에서 제안하는 사전 훈련 기법이 다중 후보 추론 작업에 공동 모델로 사용되는 트랜스포머 모델뿐 아니라, 이러한 작업의 문장 쌍 형식에 대해 크로스 인코더로 사용되는 경우에도 기존 기법들보다 우수함을 입증한다. 본 연구의 코드 및 사전 훈련된 모델은 https://github.com/amazon-research/wqa-multi-sentence-inference 에 공개된다.

문단 기반 Transformer 사전 훈련을 통한 다문장 추론 | 최신 연구 논문 | HyperAI초신경