Command Palette
Search for a command to run...
ضبط تعليمات الفيديو باستخدام البيانات المصنعة
ضبط تعليمات الفيديو باستخدام البيانات المصنعة
Yuanhan Zhang Jinming Wu Wei Li Bo Li Zejun Ma Ziwei Liu Chunyuan Li
الملخص
تطوير نماذج الفيديو متعددة الوسائط الكبيرة (LMMs) قد تأخر بسبب صعوبة جمع كميات كبيرة من البيانات الخام ذات الجودة العالية من الإنترنت. لحل هذه المشكلة، نقترح نهجًا بديلًا يتمثل في إنشاء مجموعة بيانات مصنعة عالية الجودة مخصصة لتوجيه تعليمات الفيديو، وهي LLaVA-Video-178K. تتضمن هذه المجموعة مهامًا رئيسية مثل التسمية التفصيلية، الإجابة على الأسئلة المفتوحة (QA)، والإجابة على الأسئلة ذات الخيارات المتعددة (multiple-choice QA). من خلال التدريب على هذه المجموعة، وبالاشتراك مع بيانات توجيه التعليمات البصرية الموجودة سابقًا، نقدم LLaVA-Video، وهو نموذج فيديو متعدد الوسائط جديد. تظهر تجاربنا أن LLaVA-Video يحقق أداءً قويًا في مختلف مقاييس الفيديو، مما يؤكد فعالية مجموعتنا البيانات. نخطط لإصدار المجموعة وخط أنابيب إنتاجها ونقاط التحقق من النموذج.