CLIPSelf: محول الرؤية يصفّي نفسه للتنبؤ الكثيف بمفردات مفتوحة

المهام التنبؤية الكثيفة ذات المفردات المفتوحة، بما في ذلك اكتشاف الأشياء وتقسيم الصور، قد تقدمت بفضل نجاح التدريب المسبق المقارن للغة والصورة (CLIP). وقد أظهرت نماذج CLIP، وخاصة تلك التي تتضمن متحولات الرؤية (ViTs)، قدرة تعميم ملحوظة في تصنيف الصور بدون أي تعليمات سابقة. ومع ذلك، عند نقل تناسق الرؤية واللغة في CLIP من تمثيل الصورة الشامل إلى تمثيل المناطق المحلية للمهام التنبؤية الكثيفة ذات المفردات المفتوحة، تعاني متحولات الرؤية في CLIP (CLIP ViTs) من تحول المجال من الصور الكاملة إلى المناطق المحلية للصور. وفي هذا البحث، نقوم بتحليل عميق لتناسق المنطقة واللغة في نماذج CLIP، وهو أمر ضروري للمهام التنبؤية الكثيفة ذات المفردات المفتوحة اللاحقة. ثم نقترح طريقة تسمى CLIPSelf، والتي تقوم بتكييف قدرة التعرف على مستوى الصورة في CLIP ViT إلى المناطق المحلية للصور دون الحاجة إلى أي أزواج مناطق-نصوص. يتيح CLIPSelf لمتحولات الرؤية أن تستخلص نفسها عن طريق تناسق تمثيل منطقة مستخرج من خريطتها الخاصة بالميزات الكثيفة مع التمثيل على مستوى الصورة للمقطع المحصول منه. وبفضل هذه النماذج المعززة من CLIP ViTs، نحقق أداءً جديدًا يتفوق على أفضل ما سبقه في مجال اكتشاف الأشياء وتقسيم الدلالات وتقسيم البانوراما عبر مجموعة متنوعة من المقاييس. تم إصدار النماذج والكود في https://github.com/wusize/CLIPSelf.