برفيجن: توسيع بيانات التعليم المرتكزة على الرؤية برمجياً لنموذج اللغات متعددة الوسائط

مع ازدياد التطبيقات متعددة الوسائط، أصبحت بيانات التعليم حاسمة لتدريب نماذج اللغة المتعددة الوسائط القادرة على فهم الاستفسارات المعقدة القائمة على الصور. تعتمد الممارسات الحالية على نماذج اللغة الكبيرة والقوية ولكنها مكلفة (LLMs) أو نماذج اللغة المتعددة الوسائط (MLMs) لإنتاج بيانات التعليم. ومع ذلك، فإن هذه النماذج غالبًا ما تكون عرضة للتخيلات، مشاكل الترخيص، وصعوبة توسيع وفهم عملية الإنتاج. في هذا البحث، نقدم منهجًا برمجيًا يستخدم الرسوم البيانية للمشهد كتمثيلات رمزية للصور والبرامج التي يكتبها البشر لإنشاء بيانات التعليم المرتكزة على الرؤية بشكل منهجي. يضمن منهجنا قابلية تفسير وتحكم عملية إنتاج البيانات ويتوسع بكفاءة مع الحفاظ على الدقة الواقعية. من خلال تنفيذ مجموعة من 24 مولد بيانات تعليم صورة واحدة، و14 مولد بيانات تعليم صور متعددة، وإجراء أنابيب إنتاج الرسوم البيانية للمشهد، نبني نظامًا قابلًا للتوسيع ومكلفًا بشكل أقل: ProVision الذي ينتج أزواج أسئلة-إجابات متنوعة تتعلق بالكائنات، الصفات، العلاقات، العمق وغيرها لأي صورة معينة.عند تطبيقه على مجموعات البيانات Visual Genome و DataComp، ننتج أكثر من 10 مليون نقطة بيانات تعليم ProVision-10M واستخدمناها في مرحلتي التدريب الأولي وتuning التعليم للنماذج المتعددة الوسائط (MLMs). عند استخدام بيانات التعليم الخاصة بالصورة الواحدة في مرحلة tuning التعليم، تحقق بياناتنا الخاصة بالصورة الواحدة تحسنًا بنسبة تصل إلى 7% في الجزء ثنائي الأبعاد و8% في الجزء ثلاثي الأبعاد من CVBench، بالإضافة إلى زيادة بنسبة 3% في الأداء على QBench2 و RealWorldQA و MMMU. يؤدي دمج بيانات التعليم الخاصة بالصور المتعددة إلى تحسن بنسبة 8% في Mantis-Eval. عند دمج بياناتها في كل من مرحلتي التدريب الأولي والضبط الدقيق لنموذج xGen-MM-4B، فإنها تقود إلى تحسن متوسط بنسبة 1.6% عبر 11 مقاييس مختلفة.