HyperAIHyperAI

Command Palette

Search for a command to run...

HiTeA: التدريب المسبق للغة والفيديو المُراعي للزمن والهيكلية

Qinghao Ye Guohai Xu Ming Yan Haiyang Xu Qi Qian Ji Zhang Fei Huang

الملخص

أدى التدريب المسبق على الفيديو واللغة إلى تحسين أداء مهام الفيديو واللغة الهابطة المختلفة. ومع ذلك، فإن معظم الطرق السابقة ترث مباشرة أو تُعدّل النماذج النموذجية للتدريب المسبق على الصورة واللغة لتطبيقها على التدريب المسبق على الفيديو واللغة، مما لم يُستغل بالكامل السمة الفريدة للفيديو، وهي البُعد الزمني. في هذه الورقة، نقترح إطارًا للتدريب المسبق على الفيديو واللغة يُسمى HiTeA (HiTeA: Hierarchical Temporal-Aware)، يعتمد على مهام تدريب مسبق جديدة لتمثيل التوافق بين اللحظات والنصوص، وكذلك العلاقات الزمنية بين أزواج الفيديو والنصوص. بشكل محدد، نقترح مهمة استكشاف اللحظات عبر الوسائط (cross-modal moment exploration) لاستكشاف اللحظات داخل الفيديوهات، مما يؤدي إلى تمثيل دقيق للحظات الفيديو. علاوة على ذلك، يتم التقاط العلاقات الزمنية الطبيعية من خلال محاذاة أزواج الفيديو والنصوص ككل على مختلف دقة التوقيت باستخدام مهمة استكشاف العلاقات الزمنية متعددة الوسائط. بالإضافة إلى ذلك، نقدم اختبار التبديل (shuffling test) لتقييم الاعتماد الزمني للمجموعات البيانات والنماذج المستخدمة في التدريب المسبق على الفيديو واللغة. حققنا نتائج متقدمة على 15 مهمة معروفة في فهم وتكوين الفيديو واللغة، خاصة على المجموعات الزمنية الموجهة (مثل SSv2-Template و SSv2-Label) مع تحسن بنسبة 8.6% و11.1% على التوالي. كما أظهر HiTeA قدرة قوية على التعميم عند نقله مباشرة إلى المهام الهابطة بطريقة صفرية (zero-shot). سيتم إتاحة النماذج والعرض التوضيحي على منصة ModelScope.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp