HyperAIHyperAI
منذ 2 أشهر

ضبط تعليمات الفيديو باستخدام البيانات المصنعة

Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
ضبط تعليمات الفيديو باستخدام البيانات المصنعة
الملخص

تطوير نماذج الفيديو متعددة الوسائط الكبيرة (LMMs) قد تأخر بسبب صعوبة جمع كميات كبيرة من البيانات الخام ذات الجودة العالية من الإنترنت. لحل هذه المشكلة، نقترح نهجًا بديلًا يتمثل في إنشاء مجموعة بيانات مصنعة عالية الجودة مخصصة لتوجيه تعليمات الفيديو، وهي LLaVA-Video-178K. تتضمن هذه المجموعة مهامًا رئيسية مثل التسمية التفصيلية، الإجابة على الأسئلة المفتوحة (QA)، والإجابة على الأسئلة ذات الخيارات المتعددة (multiple-choice QA). من خلال التدريب على هذه المجموعة، وبالاشتراك مع بيانات توجيه التعليمات البصرية الموجودة سابقًا، نقدم LLaVA-Video، وهو نموذج فيديو متعدد الوسائط جديد. تظهر تجاربنا أن LLaVA-Video يحقق أداءً قويًا في مختلف مقاييس الفيديو، مما يؤكد فعالية مجموعتنا البيانات. نخطط لإصدار المجموعة وخط أنابيب إنتاجها ونقاط التحقق من النموذج.

ضبط تعليمات الفيديو باستخدام البيانات المصنعة | أحدث الأوراق البحثية | HyperAI