التقنيات العامة للتفكيك في الصور، والصور، واللغة

نقدم نموذج X-Decoder، وهو نموذج تفسير معمم قادر على التنبؤ بالتقسيم على مستوى البكسل والرموز اللغوية بشكل سلس. يأخذ X-Decoder كمدخل نوعين من الاستفسارات: (أ) استفسارات عامة غير ذات معنى، و(ب) استفسارات ذات معنى مستمدة من المدخلات النصية، لاستخلاص مخرجات مختلفة على مستوى البكسل والمستوى النصي ضمن نفس الفضاء المعنوي. وبفضل هذا التصميم الجديد، يُعد X-Decoder أول عمل يقدّم طريقة موحدة لدعم جميع أنواع تقسيم الصور، بالإضافة إلى مجموعة متنوعة من المهام البصرية-اللغوية (VL). علاوة على ذلك، يمكّن هذا التصميم التفاعل السلس بين المهام المختلفة على مستويات دقة مختلفة، ويحقق فوائد متبادلة من خلال تعلّم فضاء مشترك غني للفهم البصري-المعنوي على مستوى البكسل، دون الحاجة إلى أي تسمية اصطناعية (Pseudo-labeling). وبعد التدريب المسبق على مجموعة مختلطة من كميات محدودة من بيانات التقسيم، وعشرات الملايين من أزواج الصور والنصوص، يُظهر X-Decoder قدرة نقل قوية إلى مجموعة واسعة من المهام اللاحقة، سواء في البيئات ذات الصفر-التجربة (zero-shot) أو في التخصيص (fine-tuning). وبشكل ملحوظ، يحقق (1) نتائج قياسية على مستوى التقسيم المفتوح المفرد (open-vocabulary segmentation) والتقسيم بالإشارة (referring segmentation) على ثمانية مجموعات بيانات؛ (2) أداءً محسّناً أو متساوياً مع النماذج العامة والمتخصصة الأخرى في المهام المتعلقة بالتقسيم والمهام البصرية-اللغوية؛ و(3) مرونة عالية في التخصيص الفعّال وتكوين مهام جديدة (مثل التسمية بالإشارة وتحرير الصور). يمكن الوصول إلى الكود، العرض التوضيحي، الفيديو، والتصورات عبر الرابط: https://x-decoder-vl.github.io.