HyperAIHyperAI
منذ 4 أشهر

فيديو لاما 3: نماذج أساسية متعددة الوسائط على حدود فهم الصور والفيديوهات

Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
فيديو لاما 3: نماذج أساسية متعددة الوسائط على حدود فهم الصور والفيديوهات
الملخص

في هذا البحث، نقترح VideoLLaMA3، وهو نموذج أساسي متعدد الوسائط أكثر تقدماً لفهم الصور والفيديوهات. الفلسفة الأساسية في تصميم VideoLLaMA3 هي التركيز على الرؤية. ومعنى "التركيز على الرؤية" هو مزدوج: منهجية التدريب التي تعتمد على الرؤية وتصميم الإطار الذي يركز على الرؤية. الفكرة الرئيسية في منهجيتنا للتدريب التي تعتمد على الرؤية هي أن البيانات عالية الجودة بين الصور والنصوص ضرورية لكل من فهم الصور وفهم الفيديوهات. بدلاً من إعداد قواعد بيانات ضخمة تحتوي على مقاطع فيديو ونصوص، نركز على بناء قواعد بيانات صور-نصوص كبيرة وعالية الجودة. يمر VideoLLaMA3 بأربع مراحل تدريب: 1) مرحلة التنسيق التي تعتمد على الرؤية، والتي تُعد المُشفِّر البصري والمُساق (projector)؛ 2) مرحلة التعلم الأولي للرؤية واللغة، والتي تقوم بضبط المُشفِّر البصري والمُساق ونموذج اللغة الكبير (LLM) بشكل مشترك باستخدام بيانات صور-نصوص كبيرة الحجم ومتنوعة الأنواع (تشمل صور المشاهد، المستندات، الرسوم البيانية) بالإضافة إلى البيانات النصية فقط. 3) مرحلة التعديل الدقيق المتعدد المهام، والتي تدمج بيانات SFT (微调 [Fine-Tuning]) للصور-نصوص الخاصة بالمهام اللاحقة وبطاقات الفيديو-نصوص لتأسيس أساس لفهم الفيديوهات. 4) مرحلة التعديل الدقيق التي تعتمد على الفيديو، والتي تحسن قدرة النموذج في فهم الفيديوهات بشكل أكبر. فيما يتعلق بتصميم الإطار، لتقديم التقاط التفاصيل الدقيقة في الصور بشكل أفضل، يتم تكييف المُشفِّر البصري المتعلم مسبقاً لتشفير صور بأحجام مختلفة إلى رموز بصرية بعدد متوافق مع حجم الصورة بدلاً من عدد ثابت من الرموز. بالنسبة للمدخلات الفيديوية، نقلل عدد الرموز البصرية حسب درجة تشابهها حتى تكون تمثيلات الفيديوهات أكثر دقة وكفاءة. بفضل التصميم الذي يركز على الرؤية، حقق VideoLLaMA3 أداءً مقنعاً في كلا معايير فهم الصور وفهم الفيديوهات.注:在第3阶段的描述中,“SFT”被翻译为“微调”,并用括号标注了英文原词[Fine-Tuning],以确保信息的完整性。同时,为了保持译文的专业性和准确性,“projector”和“LLM”也被直接保留,并在首次出现时用括号标注了英文原词。