HyperAIHyperAI

Command Palette

Search for a command to run...

ضبط تعليمات الفيديو باستخدام البيانات المصنعة

Yuanhan Zhang Jinming Wu Wei Li Bo Li Zejun Ma Ziwei Liu Chunyuan Li

الملخص

تطوير نماذج الفيديو متعددة الوسائط الكبيرة (LMMs) قد تأخر بسبب صعوبة جمع كميات كبيرة من البيانات الخام ذات الجودة العالية من الإنترنت. لحل هذه المشكلة، نقترح نهجًا بديلًا يتمثل في إنشاء مجموعة بيانات مصنعة عالية الجودة مخصصة لتوجيه تعليمات الفيديو، وهي LLaVA-Video-178K. تتضمن هذه المجموعة مهامًا رئيسية مثل التسمية التفصيلية، الإجابة على الأسئلة المفتوحة (QA)، والإجابة على الأسئلة ذات الخيارات المتعددة (multiple-choice QA). من خلال التدريب على هذه المجموعة، وبالاشتراك مع بيانات توجيه التعليمات البصرية الموجودة سابقًا، نقدم LLaVA-Video، وهو نموذج فيديو متعدد الوسائط جديد. تظهر تجاربنا أن LLaVA-Video يحقق أداءً قويًا في مختلف مقاييس الفيديو، مما يؤكد فعالية مجموعتنا البيانات. نخطط لإصدار المجموعة وخط أنابيب إنتاجها ونقاط التحقق من النموذج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp