17일 전

TANDA: 사전 훈련된 Transformer 모델의 전이 및 적응을 통한 답변 문장 선택

Siddhant Garg, Thuy Vu, Alessandro Moschitti
TANDA: 사전 훈련된 Transformer 모델의 전이 및 적응을 통한 답변 문장 선택
초록

우리는 자연어 처리 작업을 위한 사전 훈련된 Transformer 모델의 미세조정에 효과적인 기법인 TANDA를 제안한다. 구체적으로, 먼저 대규모이고 고품질의 데이터셋을 이용해 사전 훈련된 모델을 일반적인 작업용 모델로 전이한다. 그 후, 이 전이된 모델을 목표 도메인에 적응시키기 위해 두 번째 미세조정 단계를 수행한다. 본 연구에서는 질문-응답(Question Answering) 분야에서 잘 알려진 추론 작업인 답변 문장 선택(answer sentence selection)에 대해 제안하는 방법의 유용성을 입증한다. 전이 단계를 가능하게 하기 위해 자연 질문(Natural Questions) 데이터셋을 활용하여 대규모 데이터셋을 구축하였다. 제안한 방법은 WikiQA와 TREC-QA와 같은 두 가지 유명한 벤치마크에서 최신 기술 수준을 확립하였으며, 각각 MAP 점수 92%, 94.3%를 기록하여 최근 연구에서 달성된 이전 최고 성능인 83.4% 및 87.5%를 크게 상회한다. 실증적으로 TANDA는 최적의 하이퍼파라미터를 선택하는 데 필요한 노력이 줄어들고, 더 안정적이고 강건한 모델을 생성함을 보였다. 또한 TANDA의 전이 단계가 노이즈가 포함된 데이터에 대해 적응 단계의 강건성을 향상시켜, 노이즈가 포함된 데이터셋을 보다 효과적으로 미세조정에 활용할 수 있음을 확인하였다. 마지막으로, 다양한 유형의 노이즈가 존재하는 도메인 특화 데이터셋을 활용한 산업 환경에서도 TANDA의 긍정적인 영향을 확인하였다.

TANDA: 사전 훈련된 Transformer 모델의 전이 및 적응을 통한 답변 문장 선택 | 최신 연구 논문 | HyperAI초신경