9일 전
새로운 체코어 데이터셋을 기반으로 평가된 웹 검색 관련성 순위 매기기를 위한 시엠즈 BERT 기반 모델
Matěj Kocián, Jakub Náplava, Daniel Štancl, Vladimír Kadlec

초록
웹 검색 엔진은 수백 밀리초 내에 매우 관련성 높은 결과를 제공하는 데 집중한다. 이에 따라 BERT와 같은 사전 훈련된 언어 변환 모델은 높은 계산량을 요구하기 때문에 이와 같은 환경에서 활용하기 어렵다. 본 연구에서는 BERT 기반의 시아모이즈(Siamese) 아키텍처를 활용한 실시간 문서 순위 매기기 문제 해결 방법을 제안한다. 해당 모델은 이미 상용 검색 엔진에 배포되어 운영 중이며, 생산 환경에서 성능을 3% 이상 향상시켰다. 추가적인 연구 및 평가를 위해, 수동으로 할당된 관련성 수준을 갖춘 160만 개의 체코어 사용자 쿼리-문서 쌍으로 구성된 독창적인 데이터셋인 DaReCzech을 공개한다. 또한 대규모 체코어 코퍼스를 기반으로 사전 훈련된 Electra-small 언어 모델인 Small-E-Czech도 함께 공개한다. 우리는 이 데이터셋이 검색 관련성 및 다국어 중심 연구 공동체의 연구 활동을 지원할 것이라고 기대한다.