HyperAIHyperAI
منذ 7 أيام

يُقابل CLIP التوصيف المرئي: من المهم بالفعل تعلم التمثيل المُدرَك للمفاهيم

Bang Yang, Tong Zhang, Yuexian Zou
يُقابل CLIP التوصيف المرئي: من المهم بالفعل تعلم التمثيل المُدرَك للمفاهيم
الملخص

بالنسبة لوصف الفيديو، أصبح نموذج "التدريب المسبق والضبط الدقيق" المعيار الفعلي، حيث يُستخدم عادةً التدريب المسبق على ImageNet (INP) لتمثيل محتوى الفيديو، ثم يتم ضبط الشبكة الموجهة للمهمة من الصفر لمعالجة إنشاء الوصف. تُجري هذه الورقة دراسة أولية لتأثير النموذج المُقترح حديثًا CLIP (التدريب المتناقض للغة والصورة) على وصف الفيديو. من خلال الدراسة التجريبية المقارنة بين INP وCLIP، نحدد العيوب المحتملة في INP ونستكشف العوامل الأساسية التي تؤثر على إنشاء وصف دقيق. تُظهر النتائج أن النموذج القائم على INP يعاني من صعوبة في التقاط المعاني المفاهيمية، ويكون حساسًا جدًا للمعلومات الخلفية غير ذات الصلة. في المقابل، يُحسّن النموذج القائم على CLIP جودة الوصف بشكل ملحوظ، ويُبرز أهمية تعلم التمثيلات الواعية بالمفاهيم. وباستنادًا إلى هذه النتائج، نقترح نموذجًا جديدًا يُسمى "كشف المفاهيم المزدوج" (DCD)، والذي يهدف إلى دمج المعرفة بالمفاهيم داخل النموذج أثناء التدريب. يُعد DCD مهمة مساعدة تتطلب من نموذج الوصف تعلّم العلاقة بين محتوى الفيديو والمفاهيم، وكذلك العلاقات التداخلية بين المفاهيم. تُظهر النتائج التجريبية على مجموعتي MSR-VTT وVATEX فعالية DCD، كما تُظهر النتائج المرئية بشكل إضافي ضرورة تعلّم التمثيلات الواعية بالمفاهيم.

يُقابل CLIP التوصيف المرئي: من المهم بالفعل تعلم التمثيل المُدرَك للمفاهيم | أحدث الأوراق البحثية | HyperAI