منذ 16 أيام

الاستخلاص المتكيف متعدد الوسائط لاستغلال المُشفّرات الأحادية الوسائط في المهام البصرية-اللغوية

Zhecan Wang, Noel Codella, Yen-Chun Chen, Luowei Zhou, Xiyang Dai, Bin Xiao, Jianwei Yang, Haoxuan You, Kai-Wei Chang, Shih-fu Chang, Lu Yuan

عرض تفاصيل الورقة البحثية

الاستخلاص المتكيف متعدد الوسائط لاستغلال المُشفّرات الأحادية الوسائط في المهام البصرية-اللغوية

الملخص

تُدرب غالبًا نماذج الترميز المتقاطع للوظائف البصرية-اللغوية (VL) باستخدام مجموعات بيانات بصرية-لغوية تم اختيارها بعناية. وعلى الرغم من أن هذه المجموعات تصل إلى مستوى يقارب 10 ملايين عينة، فإن التكلفة البشرية تكون مرتفعة جدًا، مما يحول دون توسيع نطاقها أكثر. من ناحية أخرى، تُدرب نماذج الترميز الأحادية باستخدام تعليقات أبسط أقل تكلفة، مما يسمح بتوسيع نطاقها إلى مئات الملايين وحتى المليارات من العينات. نتيجة لذلك، حققت نماذج الترميز الأحادية أداءً متميزًا (SOTA) في العديد من المهام اللاحقة. ومع ذلك، لا تزال هناك تحديات عند تطبيقها على المهام البصرية-اللغوية. فبيانات التدريب المسبق ليست مثالية للهياكل المتقاطعة، وتحتاج إلى موارد حوسبة كبيرة. علاوة على ذلك، تفتقر الهياكل الأحادية إلى التفاعلات المتقاطعة التي أثبتت فوائد كبيرة في المهام البصرية-اللغوية. لذلك، ما يزال موضوع كيفية الاستفادة الأمثل من نماذج الترميز الأحادية المُدرّبة مسبقًا في المهام البصرية-اللغوية مجالًا نشطًا للبحث. في هذا العمل، نقترح طريقة لاستغلال نماذج الترميز البصرية والأحادية للغة في المهام البصرية-اللغوية، بحيث تُعزز الأساليب الحالية للوظائف البصرية-اللغوية مع الحفاظ على التعقيد الحسابي. بشكل خاص، نُقدّم تَدريبًا تكيّفيًا متعدد الأبعاد (MAD)، الذي يُدرّب بشكل تكيّفي المعرفة المفيدة من نماذج الترميز المُدرّبة مسبقًا إلى نماذج الترميز المتقاطعة للوظائف البصرية-اللغوية. ثانيًا، لتحسين التقاط التأثيرات الدقيقة على أداء المهام البصرية-اللغوية، نقدّم بروتوكول تقييم يشمل التفكير السليم البصري (VCR)، والاستنتاج البصري (SNLI-VE)، والإجابة على الأسئلة البصرية (VQA)، عبر مجموعة متنوعة من القيود على البيانات وظروف الانزياح النطاقي. تُظهر التجارب أن MAD تُحقّق مكاسب مستمرة في الظروف ذات العينات القليلة، والانزياح النطاقي، والظروف المُدرّبة بالكامل على VCR وSNLI-VE وVQA، وتُحقّق أداءً متميزًا (SOTA) على VCR مقارنةً بالنماذج الفردية الأخرى المُدرّبة مسبقًا باستخدام بيانات صورة-نص. وأخيرًا، يتفوّق MAD على الدراسات المتزامنة التي تستخدم نموذج الترميز البصري من CLIP. سيتم إتاحة الكود المصدري.