HyperAIHyperAI

Command Palette

Search for a command to run...

VideoLLaMA 2: تقدم في نمذجة الفضاء والزمن وفهم الصوت في نماذج اللغة المرئية

الملخص

في هذا البحث، نقدم VideoLLaMA 2، وهي مجموعة من نماذج اللغة الكبيرة المصممة للفيديو (Video-LLMs) بهدف تعزيز النمذجة المكانية-الزمانية وفهم الصوت في المهام المتعلقة بالفيديو والصوت. مع البناء على سلفها، يدمج VideoLLaMA 2 متصلاً خاصاً بالنمذجة المكانية-الزمانية (Spatial-Temporal Convolution - STC)، والذي يتمكن بشكل فعال من التقاط الديناميكيات المكانية والزمانية المعقدة لبيانات الفيديو. بالإضافة إلى ذلك، نقوم بدمج فرع الصوت في النموذج عبر التدريب المشترك، مما يثري قدرات الفهم المتعددة الأوضاع للنموذج من خلال دمج مؤشرات الصوت بسلاسة. تظهر التقييمات الشاملة على مهام الإجابة عن أسئلة الفيديو ذات الخيارات المتعددة (MC-VQA)، والإجابة عن أسئلة الفيديو المفتوحة (OE-VQA)، ووصف الفيديو (VC) أن VideoLLaMA 2 تحقق باستمرار نتائج تنافسية بين النماذج ذات المصدر المفتوح وتقترب حتى من بعض النماذج الخاصة في عدة مقاييس. علاوة على ذلك، تظهر VideoLLaMA 2 تحسينات معقولة في مقاييس الإجابة عن الأسئلة الصوتية فقط والإجابات الصوتية المرئية المفتوحة (AQA & OE-AVQA) مقارنة بالنماذج الحالية. هذه التطورات تؤكد الأداء المتفوق لـ VideoLLaMA 2 في الفهم المتعدد الأوضاع، مما يضع معيارًا جديدًا لأنظمة تحليل الفيديو الذكية. جميع النماذج متاحة للجمهور لتسهيل المزيد من الأبحاث.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp