جوجل تطلق EmbeddingGemma: نموذج فعّال للإدراج النصي متعدد اللغات بحجم صغير ومواصفات عالية
أطلقت جوجل نموذج EmbeddingGemma، نموذجًا متعدد اللغات عالي الكفاءة لحساب التمثيلات النصية (embeddings)، مُصمم خصيصًا للتشغيل على الأجهزة المحمولة. يتميز النموذج بحجم صغير يبلغ 308 مليون معلمة ونافذة سياق تصل إلى 2048 رمزًا، ما يجعله مثاليًا لتطبيقات مثل أنظمة الاسترجاع المدعومة بالذكاء الاصطناعي (RAG) والوكالات الذكية. يدعم أكثر من 100 لغة، ويُعدّ الأفضل بين النماذج النصية المحدودة بالحجم (أقل من 500 مليون معلمة) في اختبار Massive Text Embedding Benchmark (MTEB)، مع الحفاظ على استهلاك ذاكرة أقل من 200 ميجابايت عند التكميم. تم بناء EmbeddingGemma على أساس معمّق من نموذج Gemma3، لكنه تم تعديله لاستخدام انتباه ثنائي الاتجاه (bidirectional) بدلًا من الاتجاه الواحد (causal)، ما يحوّل الهيكل من معالج (decoder) إلى مُشفّر (encoder)، وهو ما يُحسّن الأداء في مهام الاسترجاع. بعد إنتاج تمثيلات الرموز، يتم استخدام طبقة تجميع متوسط (mean pooling) لتحويلها إلى تمثيلات نصية، تليها طبقتان كثيفتان لإنتاج متجهات بـ 768 بعدًا. كما تم تدريب النموذج باستخدام تقنية Matryoshka Representation Learning (MRL)، مما يسمح بتقليص بعد التمثيل إلى 512 أو 256 أو 128 بعدًا دون فقدان الأداء، مما يقلل من استهلاك الذاكرة والمساحة التخزينية. تم تدريب النموذج على مجموعة بيانات متعددة اللغات بحجم 320 مليار رمز، مختارة بعناية ومحفوظة من مصادر عامة، ونصوص تقنية، وبيانات مُصطنعة، مع حذف المحتوى غير الآمن أو غير المناسب. وقد أظهر النموذج أداءً متميزًا في اختبارات MMTEB وMTEB، متفوقًا على نماذج مشابهة بحجم أكبر. يُمكن استخدام EmbeddingGemma عبر العديد من الأطر الشهيرة مثل Sentence Transformers، LangChain، LlamaIndex، Haystack، txtai، Transformers.js، وText Embedding Inference (TEI)، مع دعم تشغيله محليًا في المتصفح عبر Transformers.js أو في بيئة الإنتاج عبر TEI. كما يدعم التدريب المخصص (fine-tuning) باستخدام أدوات Sentence Transformers، حيث تم تدريب نسخة مُعدّلة على مجموعة MIRIAD الطبية، ما أدى إلى تحسن ملحوظ في أداء الاسترجاع العلمي الطبي، حيث تفوقت النسخة المُعدّلة على نماذج أكبر حجمًا في مؤشر NDCG@10. يُعد EmbeddingGemma أداة عملية ومتاحة مفتوحة المصدر، تُمكّن المطورين من تطوير تطبيقات ذكية متعددة اللغات بسرعة وكفاءة، خاصة في البيئات المحدودة الموارد.