
초록
BERT와 같은 Transformer 기반 모델은 자연어 처리 분야의 다양한 작업에서 최첨단 성능을 달성하고 있다. 대규모 텍스트 코퍼스를 활용한 일반적인 사전 학습을 통해 Transformer 모델은 특정 작업에 대한 미세 조정(fine-tuning) 시 소량의 데이터로도 뛰어난 성능을 발휘할 수 있다. 본 연구에서는 BERT를 전자상거래에서의 제품 매칭(task of product matching)에 적용하여, 다른 최첨단 방법들에 비해 훨씬 더 뛰어난 학습 데이터 효율성을 보임을 입증한다. 또한, 대규모 제품 제안 데이터셋을 활용한 중간 학습(intermediate training) 단계를 통해 모델의 효과성을 추가로 향상시킬 수 있음을 보여준다. 이러한 중간 학습을 통해 제품에 특화된 미세 조정 없이도 새로운, 미리 보지 못한 제품들에 대해 90% 이상의 F1 점수를 달성할 수 있다. 이후 추가적인 미세 조정을 수행하면 더 큰 성능 향상이 가능하며, 소규모 학습 데이터셋에서 최대 12%의 F1 점수 향상을 기록할 수 있다. 중간 학습 단계에서 마스크 언어 모델링(masked language modeling) 목적 함수를 추가함으로써 언어 모델을 실제 응용 분야에 더욱 적합하게 조정하면, F1 점수는 추가로 최대 3% 상승한다.