HyperAIHyperAI

Command Palette

Search for a command to run...

وينلان: جسر بين الرؤية واللغة من خلال التدريب المسبق متعدد الوسائط على نطاق واسع

الملخص

تم استكشاف نماذج التدريب المسبق متعددة الوسائط بشكل مكثف في السنوات الأخيرة لسد الفجوة بين الرؤية واللغة. ومع ذلك، فإن معظم هذه النماذج تُحدِّد التفاعل بين الأزواج المرئية-النصية بشكل صريح، بافتراض وجود ارتباط دلالي قوي بين الوسائط النصية والمرئية. وبما أن هذا الافتراض القوي غالبًا ما يكون غير صحيح في السياقات الواقعية، اخترنا نمذجة الارتباط المتبادل بين الوسائط بشكل غير صريح لتدريب نماذج متعددة الوسائط على نطاق واسع، وهو ما يمثل محور المشروع الصيني "WenLan" الذي يقوده فريقنا. وبشكل خاص، وبافتراض ارتباط ضعيف بين الأزواج المرئية-النصية، نقترح نموذجًا ثنائي البرج يُسمى BriVL ضمن إطار التعلم التبايني بين الوسائط. على عكس نموذج OpenAI CLIP الذي يستخدم طريقة بسيطة للتعلم التبايني، قمنا بتصميم خوارزمية أكثر تقدمًا من خلال تكييف أحدث تقنية MoCo في السياق متعدد الوسائط. وباستخدام قاعدة بيانات كبيرة قائمة على الطابور، يمكن لنموذج BriVL استيعاب عدد أكبر من العينات السلبية ضمن موارد GPU المحدودة. ونتيجة لذلك، قمنا أيضًا ببناء مجموعة بيانات كبيرة متعددة المصادر باللغة الصينية تُسمى RUC-CAS-WenLan لتدريب نموذج BriVL لدينا. وأظهرت التجارب الواسعة أن النموذج المُدرّب مسبقًا BriVL يتفوق على كل من UNITER وOpenAI CLIP في مجموعة متنوعة من المهام اللاحقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp