HyperAIHyperAI

Command Palette

Search for a command to run...

VicTR: تمثيلات النص المشروطة بالفيديو للاعتراف بالأنشطة

Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo

الملخص

قد تفوقت نماذج الرؤية واللغة (VLMs) في مجال الصور - خاصة في الإعدادات ذات الصفر التصوير - بفضل توفر كميات هائلة من بيانات التدريب الأولي (أي، عينات مزدوجة من الصورة والنص). ومع ذلك، فإن مثل هذه البيانات المزدوجة ليست متاحة بكثرة لمجال الفيديو. ولذلك، يتم تصميم نماذج الفيديو-VLM عادةً عن طريق تكييف النماذج المدربة مسبقًا للصور إلى مجال الفيديو، بدلاً من تدريبها من البداية. تعتمد جميع هذه الوصفات على زيادة المعلومات الزمنية في التضمينات البصرية (أي، صورة \rightarrow فيديو)، مع الحفاظ غالبًا على التضمينات النصية دون تغيير أو حتى التخلص منها. في هذا البحث، نقدم وجهة نظر معاكسة، وهي أن يمكن تصميم نماذج الفيديو-VLM أفضل من خلال التركيز أكثر على زيادة المعلومات النصية بدلاً من المعلومات البصرية. بشكل أكثر تحديدًا، نقدم تمثيلات النص المشروطة بالفيديو (VicTR): شكل من أشكال التضمينات النصية التي يتم تحسينها بالنسبة للتضمينات البصرية، مما يخلق فضاءًا كامنًا تبادليًا أكثر مرونة. يمكن لنموذجنا الاستفادة أيضًا من المعلومات الدلالية المتاحة بحرية، على شكل نصوص مساعدة مرتبطة بصريًا (مثل معلومات الأشياء أو المشاهد). قمنا بتقييم نموذجنا على مقاييس تصنيف الأنشطة القليلة التصوير والغير مُعلَّمة (HMDB-51, UCF-101)، وتصنيف الأنشطة ذات الشكل القصير (Kinetics-400) وتصنيف الأنشطة ذات الشكل الطويل (Charades)، مما أظهر أداءً قويًا بين نماذج الفيديو-VLM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp