منذ 16 أيام

ضغط نموذج LXMERT للإجابة على الأسئلة البصرية

Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh Eetemadi

الملخص

أصبحت النماذج المُدرّبة مسبقًا على نطاق واسع مثل LXMERT شائعةً في تعلّم التمثيلات عبر الوسائط على أزواج النص والصورة لمهام الرؤية واللغة. وفقًا لفرضية "تذكرة الحظ"، تحتوي نماذج معالجة اللغة الطبيعية (NLP) والرؤية الحاسوبية على شبكات فرعية أصغر قادرة على التدريب بشكل منفصل لتحقيق الأداء الكامل. في هذه الورقة، ندمج هذه الملاحظات لتقييم ما إذا كانت هناك شبكات فرعية قابلة للتدريب موجودة في LXMERT عند تحسينها دقيقًا على مهمة VQA. بالإضافة إلى ذلك، نُجري تحليلًا لعلاقة التكلفة والمنفعة حسب حجم النموذج من خلال استكشاف مدى إمكانية التقطيع دون خسارة كبيرة في الدقة. تُظهر نتائج تجاربنا أن يمكن تقليص حجم LXMERT بنسبة 40% إلى 60% بشكل فعّال مع خسارة لا تتجاوز 3% في الدقة.