2달 전
폴리-인코더: 빠르고 정확한 다중 문장 점수화를 위한 트랜스포머 아키텍처 및 사전 학습 전략
Samuel Humeau; Kurt Shuster; Marie-Anne Lachaux; Jason Weston

초록
깊은 사전 훈련된 양방향 변환기의 사용은 여러 응용 분야에서 놀라운 진전을 이끌어냈습니다(Devlin 등, 2018). 시퀀스 간의 쌍별 비교를 수행하고 주어진 입력을 해당 라벨과 매칭하는 작업에서는 두 가지 접근 방식이 일반적입니다: 쌍에 대한 전체 자기 주의(self-attention)를 수행하는 크로스 인코더(Cross-encoders)와 쌍을 개별적으로 인코딩하는 바이 인코더(Bi-encoders). 전자는 종종 더 우수한 성능을 보이지만, 실제 사용에는 너무 느립니다. 본 연구에서는 전역적인 대신 토큰 수준의 자기 주의 특성을 학습하는 새로운 변환기 아키텍처인 폴리 인코더(Poly-encoder)를 개발하였습니다. 우리는 세 가지 접근 방식 모두에 대해 상세한 비교를 수행하였으며, 어떤 사전 훈련 및 미세 조정(fine-tuning) 전략이 가장 효과적인지 살펴보았습니다. 우리의 모델이 세 가지 기존 작업에서 최고 수준의 결과를 달성함을 보여주며, 폴리 인코더가 크로스 인코더보다 빠르고 바이 인코더보다 정확하다는 점을 입증하였습니다. 또한, 최상의 결과는 하류 작업과 유사한 큰 데이터셋에서 사전 훈련함으로써 얻어짐을 확인하였습니다.