HyperAIHyperAI

Command Palette

Search for a command to run...

يُقابل CLIP التوصيف المرئي: من المهم بالفعل تعلم التمثيل المُدرَك للمفاهيم

Bang Yang Tong Zhang Yuexian Zou

الملخص

بالنسبة لوصف الفيديو، أصبح نموذج "التدريب المسبق والضبط الدقيق" المعيار الفعلي، حيث يُستخدم عادةً التدريب المسبق على ImageNet (INP) لتمثيل محتوى الفيديو، ثم يتم ضبط الشبكة الموجهة للمهمة من الصفر لمعالجة إنشاء الوصف. تُجري هذه الورقة دراسة أولية لتأثير النموذج المُقترح حديثًا CLIP (التدريب المتناقض للغة والصورة) على وصف الفيديو. من خلال الدراسة التجريبية المقارنة بين INP وCLIP، نحدد العيوب المحتملة في INP ونستكشف العوامل الأساسية التي تؤثر على إنشاء وصف دقيق. تُظهر النتائج أن النموذج القائم على INP يعاني من صعوبة في التقاط المعاني المفاهيمية، ويكون حساسًا جدًا للمعلومات الخلفية غير ذات الصلة. في المقابل، يُحسّن النموذج القائم على CLIP جودة الوصف بشكل ملحوظ، ويُبرز أهمية تعلم التمثيلات الواعية بالمفاهيم. وباستنادًا إلى هذه النتائج، نقترح نموذجًا جديدًا يُسمى "كشف المفاهيم المزدوج" (DCD)، والذي يهدف إلى دمج المعرفة بالمفاهيم داخل النموذج أثناء التدريب. يُعد DCD مهمة مساعدة تتطلب من نموذج الوصف تعلّم العلاقة بين محتوى الفيديو والمفاهيم، وكذلك العلاقات التداخلية بين المفاهيم. تُظهر النتائج التجريبية على مجموعتي MSR-VTT وVATEX فعالية DCD، كما تُظهر النتائج المرئية بشكل إضافي ضرورة تعلّم التمثيلات الواعية بالمفاهيم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp