Command Palette
Search for a command to run...
TinyLLaVA: إطار عمل للنماذج الكبيرة متعددة الوسائط ذات الحجم الصغير
TinyLLaVA: إطار عمل للنماذج الكبيرة متعددة الوسائط ذات الحجم الصغير
Baichuan Zhou Ying Hu Xi Weng Junlong Jia Jie Luo Xien Liu Ji Wu Lei Huang
الملخص
نقدم إطار عمل TinyLLaVA الذي يوفر منظورًا موحدًا في تصميم وتحليل النماذج الكبيرة متعددة الوسائط الصغيرة (LMMs). وقد قمنا بدراسة تجريبية لتأثير مختلف معالجات الرؤية، ووحدات الاتصال، والنماذج اللغوية، وبيانات التدريب، ووصفات التدريب المختلفة. أظهرت تجاربنا الواسعة أن جودة البيانات الأفضل مدعومة بوصفات تدريب أفضل تمكن النماذج الصغيرة من تحقيق أداءً متساوٍ أو متفوقًا على النماذج الأكبر، بشكل مستمر. ضمن إطار عملنا، قمنا بتدريب مجموعة من النماذج الصغيرة متعددة الوسائط. ويُعد نموذجنا الأفضل، TinyLLaVA-3.1B، الأفضل من حيث الأداء الشامل مقارنةً بالنماذج الحالية التي تبلغ حجمها 7B مثل LLaVA-1.5 وQwen-VL. ونأمل أن تُسهم نتائجنا كأساس مرجعي للبحث المستقبلي فيما يتعلق بتوسيع نطاق البيانات، وتصميم بيئات التدريب، واختيار النماذج. وسيتم الإفصاح عن أوزان النموذج وشفرته المصدرية بشكل عام.