ClipCap: بادئة CLIP للصياغة التوصيفية للصور

تُعدّ التسمية الصورية مهمة أساسية في فهم الرؤية واللغة، حيث يقوم النموذج بتوقع وصف نصي مفيد للصورة المدخلة. في هذا البحث، نقدم نهجًا بسيطًا لمعالجة هذه المهمة. نستخدم ترميز CLIP كمقدمة للوصف، من خلال استخدام شبكة تحويل بسيطة، ثم نُدرّب نموذج لغوي دقيقًا لتكوين عناوين الصور. يحتوي النموذج المُقترح حديثًا CLIP على ميزات معنوية غنية تم تدريبها ضمن سياق نصي، مما يجعله مناسبًا بشكل مثالي لفهم الرؤية واللغة. تكمن الفكرة الأساسية لدينا في الجمع بين نموذج لغوي مُدرّب مسبقًا (GPT2) ونظام CLIP، مما يمنحنا فهمًا واسعًا للبيانات البصرية والنصية معًا. وبذلك، يكفي تدريب نموذجنا بسرعة نسبيًا لإنتاج نموذج قادر على التسمية الصورية. وبلا حاجة إلى تسميات إضافية أو تدريب مسبق، يتمكن النموذج من إنشاء عناوين ذات معنى بكفاءة لبيانات كبيرة ومتنوعة. ومن المثير للدهشة أن أسلوبنا يعمل بشكل جيد حتى عندما يتم تدريب الشبكة التحويلية فقط، بينما تبقى نماذج CLIP والنموذج اللغوي غير مُعدّلة (مجمدة)، مما يتيح بنية أخف وأقل عددًا من المعلمات القابلة للتدريب. من خلال التقييم الكمي، نُظهر أن نموذجنا يحقق نتائج مماثلة للأساليب الرائدة في المجال على مجموعتي بيانات الصعوبة المتمثلتين في Conceptual Captions وnocaps، مع أن نموذجنا أبسط، وأسرع، وأخف. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/rmokady/CLIP_prefix_caption.