SitEmb-v1.5: 의미적 연관성 및 장대한 스토리 이해를 위한 개선된 맥락 인지 밀집 검색

장문에 대한 검색 증강 생성(Retrieval-augmented generation, RAG)은 일반적으로 텍스트를 더 작은 청크 단위로 분할하여 검색의 기본 단위로 활용한다. 그러나 원본 문서 내부의 상호의존성으로 인해 각 청크를 정확히 해석하기 위해서는 맥락 정보가 필수적이다. 이를 해결하기 위해 기존 연구에서는 더 긴 맥락 창을 인코딩하여 더 긴 청크에 대한 임베딩을 생성하는 방식을 탐색해왔다. 그러나 이러한 노력에도 불구하고 검색 성능과 하류 작업에서의 성능 향상은 여전히 제한적이다. 그 이유는 (1) 더 긴 청크는 인코딩해야 할 정보량이 증가함에 따라 임베딩 모델의 처리 능력을 초과시키며, (2) 모델 또는 인간의 처리 용량 제약으로 인해 많은 실용적 응용에서는 국소화된 증거를 반환해야 하는 요구가 존재하기 때문이다.이에 우리는, 청크의 의미를 그 맥락 속에서 위치시키는 방식으로 짧은 청크를 보다 넓은 맥락 창에 조건부로 표현함으로써 검색 성능을 향상시키는 대안적 접근법을 제안한다. 또한 기존 임베딩 모델이 이러한 맥락에 기반한 정보를 효과적으로 인코딩하는 데 부적합함을 보이며, 새로운 학습 패러다임을 도입하고 '맥락 기반 임베딩 모델(Situated Embedding Models, SitEmb)'을 개발한다. 제안한 방법의 평가를 위해 맥락 기반 검색 능력을 평가할 수 있도록 특별히 설계된 책 줄거리 검색 데이터셋을 구축하였다. 이 벤치마크에서, BGE-M3 기반의 SitEmb-v1 모델은 단 1B 파라미터로도 최신 기술 수준의 임베딩 모델(7–8B 파라미터 규모를 가진 모델 포함)을 상당히 뛰어넘는 성능을 보였다. 또한 8B 규모의 SitEmb-v1.5 모델은 성능을 10% 이상 더 향상시키며, 다양한 언어와 여러 하류 응용 분야에서 뛰어난 성능을 나타내었다.