HyperAIHyperAI

Command Palette

Search for a command to run...

تصنيف الفيديو متعدد الوسائط بفقرة مفتوحة باستخدام نماذج الرؤية واللغة المُدرّبة مسبقًا

Rui Qian Yeqing Li Zheng Xu Ming-Hsuan Yang Serge Belongie Yin Cui

الملخص

يُعد استخدام نماذج الرؤية واللغة (VLMs) المُدرَّبة مسبقًا على أزواج صور ونصوص واسعة النطاق نموذجًا واعدًا للتعرف البصري المفتوح المفردات. في هذا العمل، نوسع هذا النموذج من خلال الاستفادة من الحركة والصوت اللذين يظهران بشكل طبيعي في الفيديو. نقدّم \textbf{MOV}، طريقة بسيطة ولكنها فعّالة للتصنيف الفيديو متعدد الوسائط المفتوح المفردات. في MOV، نستخدم بشكل مباشر مشغل الرؤية من نماذج VLMs المُدرَّبة مسبقًا مع تعديلات بسيطة جدًا لترميز الفيديو، والتدفق البصري (optical flow)، وطيف الصوت. وصممنا آلية دمج متعددة الوسائط لدمج المعلومات المكملة من الوسائط المختلفة. أظهرت التجارب على مجموعتي بيانات Kinetics-700 وVGGSound أن إدخال وسائط التدفق أو الصوت يؤدي إلى تحسين كبير في الأداء مقارنة بنموذج VLM المُدرَّب مسبقًا والطرق الحالية. وبشكل خاص، تُحسّن MOV الدقة على الفئات الأساسية، في حين تُظهر أداءً أفضل في التعميم على الفئات الجديدة. وتحقق MOV نتائج رائدة في معايير التصنيف الصوتي الصفرية (zero-shot) على مجموعتي بيانات UCF وHMDB، وتتفوّق بشكل كبير على الطرق التقليدية للتصنيف الصوتي الصفرية والطرق الحديثة القائمة على VLMs. سيتم إصدار الكود والنماذج قريبًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp