구글, 3억 개 파라미터 미만의 초소형 다국어 임베딩 모델 'EmbeddingGemma' 공개
6일 전
구글 딥마인드는 초소형 다국어 임베딩 모델 'EmbeddingGemma'를 공개했다. 이 모델은 308M 파라미터로, 2K 토큰의 긴 문맥을 처리하며 100개 이상의 언어를 지원한다. 양자화 시 약 200MB 메모리만 사용해 스마트폰 등 온디바이스 환경에서도 효율적으로 작동한다. MTEB 벤치마크에서 500M 이하 모델 중 최고 성능을 기록했으며, 특히 정보 검색과 리트리벌 어플리케이션에 최적화됐다. 모델은 Gemma3 기반의 양방향 어텐션 구조를 채택해 문장 의미를 더 정확히 포착한다. 또한 Matryoshka Representation Learning(MRL) 기술로 임베딩 차원을 768에서 128까지 줄여 저장 및 처리 비용을 대폭 절감할 수 있다. 다양한 프레임워크인 Sentence Transformers, LangChain, LlamaIndex, Haystack, txtai, Transformers.js, Text Embedding Inference 등과 호환되며, 텍스트 검색, 코드 검색, 요약 등 다양한 작업에 적용 가능하다. 특히 의료 분야 데이터셋(MIRIAD)에 맞춰 미세조정한 모델은 기존 두 배 크기의 모델보다 뛰어난 성능을 보여, 전문 분야의 리트리벌 정확도를 크게 향상시켰다. 이는 작은 모델이 전용 데이터에 맞춰 뛰어난 성능을 낼 수 있음을 보여주는 사례다.