HyperAIHyperAI

Command Palette

Search for a command to run...

الاستخلاص المتكيف متعدد الوسائط لاستغلال المُشفّرات الأحادية الوسائط في المهام البصرية-اللغوية

الملخص

تُدرب غالبًا نماذج الترميز المتقاطع للوظائف البصرية-اللغوية (VL) باستخدام مجموعات بيانات بصرية-لغوية تم اختيارها بعناية. وعلى الرغم من أن هذه المجموعات تصل إلى مستوى يقارب 10 ملايين عينة، فإن التكلفة البشرية تكون مرتفعة جدًا، مما يحول دون توسيع نطاقها أكثر. من ناحية أخرى، تُدرب نماذج الترميز الأحادية باستخدام تعليقات أبسط أقل تكلفة، مما يسمح بتوسيع نطاقها إلى مئات الملايين وحتى المليارات من العينات. نتيجة لذلك، حققت نماذج الترميز الأحادية أداءً متميزًا (SOTA) في العديد من المهام اللاحقة. ومع ذلك، لا تزال هناك تحديات عند تطبيقها على المهام البصرية-اللغوية. فبيانات التدريب المسبق ليست مثالية للهياكل المتقاطعة، وتحتاج إلى موارد حوسبة كبيرة. علاوة على ذلك، تفتقر الهياكل الأحادية إلى التفاعلات المتقاطعة التي أثبتت فوائد كبيرة في المهام البصرية-اللغوية. لذلك، ما يزال موضوع كيفية الاستفادة الأمثل من نماذج الترميز الأحادية المُدرّبة مسبقًا في المهام البصرية-اللغوية مجالًا نشطًا للبحث. في هذا العمل، نقترح طريقة لاستغلال نماذج الترميز البصرية والأحادية للغة في المهام البصرية-اللغوية، بحيث تُعزز الأساليب الحالية للوظائف البصرية-اللغوية مع الحفاظ على التعقيد الحسابي. بشكل خاص، نُقدّم تَدريبًا تكيّفيًا متعدد الأبعاد (MAD)، الذي يُدرّب بشكل تكيّفي المعرفة المفيدة من نماذج الترميز المُدرّبة مسبقًا إلى نماذج الترميز المتقاطعة للوظائف البصرية-اللغوية. ثانيًا، لتحسين التقاط التأثيرات الدقيقة على أداء المهام البصرية-اللغوية، نقدّم بروتوكول تقييم يشمل التفكير السليم البصري (VCR)، والاستنتاج البصري (SNLI-VE)، والإجابة على الأسئلة البصرية (VQA)، عبر مجموعة متنوعة من القيود على البيانات وظروف الانزياح النطاقي. تُظهر التجارب أن MAD تُحقّق مكاسب مستمرة في الظروف ذات العينات القليلة، والانزياح النطاقي، والظروف المُدرّبة بالكامل على VCR وSNLI-VE وVQA، وتُحقّق أداءً متميزًا (SOTA) على VCR مقارنةً بالنماذج الفردية الأخرى المُدرّبة مسبقًا باستخدام بيانات صورة-نص. وأخيرًا، يتفوّق MAD على الدراسات المتزامنة التي تستخدم نموذج الترميز البصري من CLIP. سيتم إتاحة الكود المصدري.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستخلاص المتكيف متعدد الوسائط لاستغلال المُشفّرات الأحادية الوسائط في المهام البصرية-اللغوية | مستندات | HyperAI