التحليل الشكلي المعتمد على اللغة

نقدّم نموذج LSeg، وهو نموذج جديد للتصنيف الدلالي للصور الموجه باللغة. يستخدم LSeg معالج نصي لحساب تمثيلات ( embeddings ) للوسوم الوصفية المدخلة (مثل "عشب" أو "مبنى")، إلى جانب معالج صور يستند إلى التحويل (Transformer) يحسب تمثيلات كثيفة لكل بكسل في الصورة المدخلة. يتم تدريب معالج الصور باستخدام هدف تبايني (contrastive objective) لمحاذاة تمثيلات البكسل مع تمثيل النص الخاص بالفئة الدلالية المقابلة. توفر تمثيلات النص تمثيلًا مرناً للوسوم، حيث تُمثّل الوسوم ذات الدلالة المشابهة مناطق متشابهة في فضاء التمثيل (مثلاً: "قط" و"شعري"). هذا يمكّن LSeg من التعميم على فئات لم تُرَ من قبل أثناء الاختبار، دون الحاجة إلى إعادة التدريب أو حتى احتياج عينة تدريب إضافية واحدة. نُظهر أن نهجنا يحقق أداءً متميزًا للغاية في الوضع الصفري (zero-shot) مقارنةً بالطرق الحالية للتصنيف الدلالي في الوضع الصفري أو القليل من الأمثلة (few-shot)، بل ويُوازي دقة الخوارزميات التقليدية للتصنيف الدلالي عند توفر مجموعة وسوم ثابتة. يمكن الوصول إلى الكود والعرض التوضيحي من خلال الرابط: https://github.com/isl-org/lang-seg.