منذ 17 أيام
أقل هو أكثر: الطبقات الخطية على ميزات CLIP كنموذج قوي لـ VizWiz
Fabian Deuser, Konrad Habel, Philipp J. Rösch, Norbert Oswald

الملخص
تعاني البنية الحالية للمهام متعددة الوسائط، مثل الإجابة على الأسئلة البصرية، من تعقيدها العالي. ونتيجة لذلك، تُعد هذه البنية صعبة التدريب وتحتاج إلى موارد حوسبة عالية. ولحل هذه المشكلات، نقدم بنية قائمة على CLIP لا تتطلب أي تعديل دقيق (fine-tuning) لاستخراج الميزات. نستخدم فئة تصنيف خطية بسيطة على الميزات المُجمعة من مُشفّر الصورة ومُشفّر النص. أثناء التدريب، نُضيف خسارة مساعدة تعمل على أنواع الإجابات. ثم تُستخدم النتيجة الناتجة كمُفتاح انتباه (attention gate) لاختيار فئة الإجابة. وفي مسابقة الإجابة على الأسئلة البصرية VizWiz 2022، حققنا دقة قدرها 60.15٪ في المهمة 1: توقع الإجابة على سؤال بصري، ودرجة AP قدرها 83.78٪ في المهمة 2: توقع إمكانية إجابة سؤال بصري.