الجمع التشاركي المُمَلَّء للبيانات عالية الجودة من أجل التدريب الدقيق البصري

يُقدّم هذا البحث إطار عمل يُسمى التحفيز العدواني التفاعلي (GAP)، وهو إطار يُستخدم لجمع بيانات عالية الجودة من خلال توظيف جموعة من المستخدمين لتحسين النماذج الكبيرة متعددة الوسائط من حيث التعليم البصري. يحوّل GAP عملية جمع البيانات إلى لعبة جذّابة، مما يشجّع اللاعبين على تقديم أسئلة وأجوبة دقيقة وصعبة تهدف إلى تغطية الفجوات في معرفة النموذج. تتمثل مساهماتنا في: (1) منهجية لاستخلاص أزواج الأسئلة والأجوبة من البشر تُركّز مباشرة على نقاط الضعف في معرفة النموذج، (2) طريقة لتقييم وتقدير اللاعبين بنجاح، مما يحفّزهم على تقديم مساهمات عالية الجودة، و(3) منصة قابلة للتوسع ومتعددة الألعاب، نجحت في جمع هذه البيانات من أكثر من 50,000 مشارك خلال بضعة أسابيع فقط. وقد أدى تطبيقنا لـ GAP إلى تحسين كبير في دقة نموذج متعدد الوسائط صغير الحجم، وهو MiniCPM-Llama3-V-2.5-8B، حيث ارتفع معدّله في اختبار GPT من 0.147 إلى 0.477 على مجموعة بياناتنا، مقتربًا من المعيار الذي حددته النموذج الأكبر بكثير، أي GPT-4V. علاوة على ذلك، نُظهر أن البيانات التي تم إنشاؤها باستخدام MiniCPM-Llama3-V-2.5-8B تُحسّن أيضًا أداءه في مجموعة أخرى من المعايير، وتُظهر فوائد متعددة النماذج. وتحديدًا، أدى نفس مجموعة البيانات إلى تحسين أداء النموذجين QWEN2-VL-2B وQWEN2-VL-7B في نفس مجموعة المعايير المتعددة.