منذ 8 أشهر

الملخص

تطوير نماذج الفيديو متعددة الوسائط الكبيرة (LMMs) قد تأخر بسبب صعوبة جمع كميات كبيرة من البيانات الخام ذات الجودة العالية من الإنترنت. لحل هذه المشكلة، نقترح نهجًا بديلًا يتمثل في إنشاء مجموعة بيانات مصنعة عالية الجودة مخصصة لتوجيه تعليمات الفيديو، وهي LLaVA-Video-178K. تتضمن هذه المجموعة مهامًا رئيسية مثل التسمية التفصيلية، الإجابة على الأسئلة المفتوحة (QA)، والإجابة على الأسئلة ذات الخيارات المتعددة (multiple-choice QA). من خلال التدريب على هذه المجموعة، وبالاشتراك مع بيانات توجيه التعليمات البصرية الموجودة سابقًا، نقدم LLaVA-Video، وهو نموذج فيديو متعدد الوسائط جديد. تظهر تجاربنا أن LLaVA-Video يحقق أداءً قويًا في مختلف مقاييس الفيديو، مما يؤكد فعالية مجموعتنا البيانات. نخطط لإصدار المجموعة وخط أنابيب إنتاجها ونقاط التحقق من النموذج.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار