HyperAIHyperAI
منذ 2 أشهر

CALIP: تحسين CLIP بدون رؤية مسبقة باستخدام انتباه خالٍ من المعلمات

Ziyu Guo; Renrui Zhang; Longtian Qiu; Xianzheng Ma; Xupeng Miao; Xuming He; Bin Cui
CALIP: تحسين CLIP بدون رؤية مسبقة باستخدام انتباه خالٍ من المعلمات
الملخص

أثبتت طريقة التدريب المسبق المقارن للغة والصورة (CLIP) قدرتها على تعلم تمثيلات بصرية ذات قابلية نقل عالية، مما يحقق دقة واعدة في تصنيف الصور بدون تدريب مسبق (zero-shot classification). ومع ذلك، فإن التكاليف الإضافية للتدريب والمتطلبات البيانات التي تترتب على هذا النهج تحد بشدة من كفاءة نشر النموذج ونقل المعرفة. في هذه الورقة البحثية، نقدم طريقة تعزيز مجانية، وهي CALIP، لتحسين أداء CLIP في التصنيف بدون تدريب مسبق من خلال استخدام وحدة انتباه خالية من المعلمات (parameter-free Attention module). تحديداً، نوجه التمثيلات البصرية والنصية للتفاعل مع بعضها البعض واستكشاف الخصائص المعلوماتية عبر الأنظمة متعددة الوسائط باستخدام الانتباه. نظراً لكون التدريب المسبق قد خفض بشكل كبير المسافات بين الوسائط المختلفة، فقد قمنا بإلغاء جميع المعلمات القابلة للتعلم في وحدة الانتباه وتحديث الخصائص متعددة الوسائط بشكل ثنائي الاتجاه، مما يمكننا من جعل العملية بأكملها خالية من المعلمات ومن التدريب. بهذه الطريقة، يتم دمج الصور مع إشارات واعية بالنص (textual-aware signals)، ويصبح تمثيل النص موجهاً بصرياً (visual-guided) لتحقيق تناسب أفضل بدون تدريب مسبق. قمنا بتقييم CALIP على مجموعة متنوعة من مقاييس الأداء تتضمن 14 مجموعة بيانات للتصنيف القليل الإرشادي (few-shot classification) لكل من الصور ثنائية الأبعاد والغيوم النقاط ثلاثية الأبعاد، مما أظهر تحسينًا مستقرًا في أداء التصنيف بدون تدريب مسبق مقارنة بـ CLIP. بناءً على ذلك، أدخلنا عددًا صغيرًا من الطبقات الخطية في وحدة الانتباه الخاصة بـ CALIP واختبرنا صلابة نهجنا تحت ظروف التصنيف القليل الإرشادي، والتي حققت أيضًا أداءً رائدًا مقارنة بالطرق الموجودة حاليًا. تُظهر هذه التجارب الشاملة فوائد نهجنا في تعزيز كفاءة CLIP.

CALIP: تحسين CLIP بدون رؤية مسبقة باستخدام انتباه خالٍ من المعلمات | أحدث الأوراق البحثية | HyperAI