Command Palette
Search for a command to run...

초록
우리는 Gemma 3 언어 모델 패밀리 기반의 새로운 경량(open) 텍스트 임베딩 모델인 EmbeddingGemma를 소개한다. 본 연구는 인코더-디코더 초기화와 기하학적 임베딩 다이스틸리션을 활용하여 대규모 모델로부터 지식을 전략적으로 추출하는 혁신적인 학습 방법을 제안한다. 또한, 분산 정규화(regularizer)를 도입하여 모델의 강건성과 표현력을 향상시키고, 다양한 최적화된 혼합 모델의 체크포인트를 통합함으로써 일반화 능력을 보장한다. 다국어, 영어, 코드 영역을 아우르는 대규모 텍스트 임베딩 벤치마크(MTEB)에서 평가한 결과, EmbeddingGemma(300M)는 현재까지의 최고 성능을 기록했다. 특히, 파라미터 수가 5억 미만임에도 불구하고 기존의 상용 및 오픈 소스 모델을 모두 상회하며, 크기가 두 배에 달하는 모델과 비슷한 성능을 제공함으로써 뛰어난 성능 대비용 비율을 확보했다. 더욱 주목할 점은 모델 가중치를 양자화하거나 임베딩 출력을 자르는 경우에도 이러한 성능 우위가 지속된다는 점이다. 이는 EmbeddingGemma가 장치 내(on-device) 응용 프로그램 등 저지연, 고처리량 환경에 특히 적합함을 의미한다. 본 연구에서는 핵심 설계 선택 사항에 대한 아블레이션(Ablation) 연구를 제공하며, 향후 연구를 촉진하기 위해 EmbeddingGemma를 커뮤니티에 공개한다.