شيرجيت4ف: تحسين النماذج المتعددة الأوضاع الكبيرة بفضل التسميات الأفضل

في مجال النماذج متعددة الوسائط الكبيرة (LMMs)، يعد التوافق الفعّال بين الأوضاع أمرًا حاسمًا ومع ذلك غالبًا ما يُقَيَّد بنقص البيانات النصية-الصورية ذات الجودة العالية. لمعالجة هذا العائق، نقدم مجموعة البيانات ShareGPT4V، وهي مورد رائد على نطاق واسع يحتوي على 1.2 مليون تعليق وصفي عالي الدقة، مما يتفوق على المجموعات الحالية من حيث التنوع ومحتوى المعلومات، حيث تغطي هذه التعليقات المعرفة العالمية، خصائص الأشياء، العلاقات المكانية والتقييمات الجمالية. تحديدًا، تم استخراج ShareGPT4V من 100 ألف تعليق عالي الجودة تم جمعها من GPT4-Vision المتقدمة وتم توسيعها إلى 1.2 مليون باستخدام نموذج تعليقات رائع تم تدريبه على هذا الجزء الفرعي. أولاً، تظهر مجموعة البيانات ShareGPT4V فعاليتها في مرحلة التحسين الدقيق تحت الإشراف (SFT) عن طريق استبدال كمية مكافئة من التعليقات التفصيلية في مجموعات البيانات SFT الحالية بجزء فرعي من تعليقاتنا عالية الجودة، مما يعزز بشكل كبير أداء النماذج متعددة الوسائط مثل LLaVA-7B، LLaVA-1.5-13B و Qwen-VL-Chat-7B في مقاييس MME و MMBench بمكاسب تبلغ 222.8/22.0/22.3 و 2.7/1.3/1.5 على التوالي. بالإضافة إلى ذلك، قمنا بدمج بيانات ShareGPT4V في كلٍ من مراحل التعلم الأولي والتحسين الدقيق تحت الإشراف (SFT)، مما أدى إلى الحصول على ShareGPT4V-7B، وهو نموذج متعدد الوسائط متفوق يستند إلى بنية بسيطة ويحقق أداءً ملحوظًا في معظم مقاييس النماذج متعددة الوسائط. يمكن الوصول إلى هذا المشروع عبر الرابط https://ShareGPT4V.github.io ليكون مصدرًا محوريًا لتطوير مجتمع النماذج متعددة الوسائط الكبيرة (LMMs).