HyperAIHyperAI
منذ 7 أيام

التقنيات العامة للتفكيك في الصور، والصور، واللغة

Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao
التقنيات العامة للتفكيك في الصور، والصور، واللغة
الملخص

نقدم نموذج X-Decoder، وهو نموذج تفسير معمم قادر على التنبؤ بالتقسيم على مستوى البكسل والرموز اللغوية بشكل سلس. يأخذ X-Decoder كمدخل نوعين من الاستفسارات: (أ) استفسارات عامة غير ذات معنى، و(ب) استفسارات ذات معنى مستمدة من المدخلات النصية، لاستخلاص مخرجات مختلفة على مستوى البكسل والمستوى النصي ضمن نفس الفضاء المعنوي. وبفضل هذا التصميم الجديد، يُعد X-Decoder أول عمل يقدّم طريقة موحدة لدعم جميع أنواع تقسيم الصور، بالإضافة إلى مجموعة متنوعة من المهام البصرية-اللغوية (VL). علاوة على ذلك، يمكّن هذا التصميم التفاعل السلس بين المهام المختلفة على مستويات دقة مختلفة، ويحقق فوائد متبادلة من خلال تعلّم فضاء مشترك غني للفهم البصري-المعنوي على مستوى البكسل، دون الحاجة إلى أي تسمية اصطناعية (Pseudo-labeling). وبعد التدريب المسبق على مجموعة مختلطة من كميات محدودة من بيانات التقسيم، وعشرات الملايين من أزواج الصور والنصوص، يُظهر X-Decoder قدرة نقل قوية إلى مجموعة واسعة من المهام اللاحقة، سواء في البيئات ذات الصفر-التجربة (zero-shot) أو في التخصيص (fine-tuning). وبشكل ملحوظ، يحقق (1) نتائج قياسية على مستوى التقسيم المفتوح المفرد (open-vocabulary segmentation) والتقسيم بالإشارة (referring segmentation) على ثمانية مجموعات بيانات؛ (2) أداءً محسّناً أو متساوياً مع النماذج العامة والمتخصصة الأخرى في المهام المتعلقة بالتقسيم والمهام البصرية-اللغوية؛ و(3) مرونة عالية في التخصيص الفعّال وتكوين مهام جديدة (مثل التسمية بالإشارة وتحرير الصور). يمكن الوصول إلى الكود، العرض التوضيحي، الفيديو، والتصورات عبر الرابط: https://x-decoder-vl.github.io.

التقنيات العامة للتفكيك في الصور، والصور، واللغة | أحدث الأوراق البحثية | HyperAI