HyperAIHyperAI

Command Palette

Search for a command to run...

.Align قبل الدمج: تعلم التمثيل البصري واللغوي باستخدام التقطير النبضي

Junnan Li Ramprasaath R. Selvaraju Akhilesh D. Gotmare Shafiq Joty Caiming Xiong Steven C.H. Hoi

الملخص

أظهر التعلم على تمثيلات الرؤية واللغة على نطاق واسع تحسينات واعدة في مهام مختلفة تتعلق بالرؤية واللغة. تعتمد معظم الطرق الحالية على مُشفر متعدد الوسائط قائم على المتحول (transformer) لنمذجة رموز الصور (ميزات الصور القائمة على المناطق) ورموز الكلمات بشكل مشترك. نظرًا لعدم تطابق رموز الصور مع رموز الكلمات، يواجه المُشفر المتعدد الوسائط تحديًا في تعلم التفاعلات بين الصورة والنص. في هذا البحث، نقدم خسارة مقارنة لتطابق (ALign) تمثيلات الصورة والنص قبل دمجها (BEfore Fusing) من خلال انتباه متعدد الوسائط (cross-modal attention)، مما يمكن من تعلم أكثر ثباتًا للتمثيلات المرئية واللغوية. بخلاف معظم الطرق الموجودة حاليًا، لا يتطلب أسلوبنا شروحات صناديق الحدود ولا صور ذات دقة عالية. لتحسين التعلم من بيانات الويب الضوضائية، نقترح تقنية التقطير الزخم، وهي طريقة تدريب ذاتي تستفيد من الأهداف الزائفة التي ينتجها نموذج الزخم. نقدم تحليلًا نظريًا لـ ALBEF من وجهة نظر تعظيم المعلومات المتبادلة، مما يوضح أن المهام التدريبية المختلفة يمكن فهمها كطرق مختلفة لإنشاء آراء لمجموعة الصورة والنص. حقق ALBEF أفضل الأداء الحالي في العديد من المهام الثانوية المتعلقة بالرؤية واللغة. في استرجاع الصورة والنص، يتفوق ALBEF على الطرق التي يتم تدريبها مسبقًا على مجموعات بيانات أكبر بمراحل عديدة. في أسئلة الإجابة البصرية (VQA) واستدلال اللغة الطبيعية المتكرر (NLVR2^22)، حقق ALBEF تحسينات مطلقة بنسبة 2.37% و3.84% مقارنة بأفضل الأداء الحالي، مع الاستمتاع بسرعة استدلال أسرع. يمكن الحصول على الكود والنماذج المتدربة مسبقًا عبر الرابط: https://github.com/salesforce/ALBEF/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp