HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP-ViP: تكييف نموذج الصورة-النص المُدرَّب مسبقًا لتوحيد التمثيل المرئي-اللغوي

Hongwei Xue Yuchong Sun Bei Liu Jianlong Fu Ruihua Song Houqiang Li Jiebo Luo

الملخص

نموذج التمثيل الصوتي-النصي المُدرّب مسبقًا، مثل CLIP، أظهر القوة الكبيرة لتمثيل الرؤية-اللغة الذي تم تعلمه من كميات ضخمة من البيانات النصية-الصورية المجمعة من الويب. وباستنادًا إلى السمات البصرية المُتقَنة جيدًا، قامت بعض الدراسات السابقة بنقل تمثيل الصور إلى مجال الفيديو وحققت نتائج جيدة. ومع ذلك، لا يزال مسألة كيفية استغلال النموذج المُدرّب مسبقًا على الصور والنصوص (مثل CLIP) لتدريب مسبق على الفيديو والنصوص (post-pretraining) موضوعًا غير مُستكشف بالكامل. في هذه الورقة، نستكشف سؤالين: 1) ما هي العوامل التي تعيق تحسين أداء CLIP المُدرّب مسبقًا على المهام المرتبطة بالفيديو والنص؟ و2) كيف يمكن تقليل تأثير هذه العوامل؟ من خلال سلسلة من التجارب التحليلية المقارنة، نكتشف أن حجم البيانات والفجوة بين المجالات بين مصادر النص لها تأثير كبير. مُشجَّعين بهذه النتائج، نقترح طريقة تعلم متعددة المصادر شاملة (Omnisource Cross-modal Learning) مزودة بآلية استبدال فيديو (Video Proxy) بناءً على CLIP، تُسمى CLIP-ViP. تُظهر النتائج الواسعة تحسنًا كبيرًا في أداء CLIP على مهام استرجاع النص-الفيديو. كما تحقق نموذجنا نتائج من الطراز الرائد (SOTA) على مجموعة متنوعة من المجموعات البيانات، بما في ذلك MSR-VTT وDiDeMo وLSMDC وActivityNet. سنُطلق كودنا ونماذج CLIP-ViP المُدرّبة مسبقًا على الرابط: https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CLIP-ViP: تكييف نموذج الصورة-النص المُدرَّب مسبقًا لتوحيد التمثيل المرئي-اللغوي | مستندات | HyperAI