2달 전
수학 정보 검색을 위한 토큰 레벨 및 패시지 레벨 밀도 검색 모델 평가
Wei Zhong; Jheng-Hong Yang; Yuqing Xie; Jimmy Lin

초록
최근 바이인코더 기반의 밀집 검색 방법이 성공하면서, 이 접근 방식은 다양한 하류 검색 과제에 효율성과 영역 내 효과성을 높이는 데 적용되었습니다. 최근에는 수학 정보 검색(MIR) 과제에서도 밀집 검색 모델의 존재를 확인할 수 있었지만, 가장 효과적인 시스템은 여전히 구조적 특징을 고려한 전통적인 검색 방법입니다. 본 연구에서는 두 가지 세계의 장점을 결합하려고 합니다: 공식 검색을 위한 명확하게 정의된 구조적 검색 방법과 문맥 유사성을 포착하기 위한 효율적인 바이인코더 밀집 검색 모델입니다. 구체적으로, 우리는 최근 MIR 과제에서 토큰 단위와 패시지 단위 밀집 검색을 위해 두 개의 대표적인 바이인코더 모델을 평가했습니다. 결과는 바이인코더 모델이 기존 구조적 검색 방법과 매우 보완적이며, MIR 데이터셋에서 최신 기술 수준을 발전시키는 데 성공했다는 것을 보여주었습니다.