LOVA3: تعلّم الإجابة على الأسئلة البصرية، وطرح الأسئلة، والتقييم

الإجابة عن الأسئلة، وطرح الأسئلة، وتقييمها، هي ثلاث صفات بشرية فطرية حاسمة لفهم العالم واكتساب المعرفة. من خلال تعزيز هذه القدرات، يمكن للبشر الاستفادة بشكل أكثر فعالية من البيانات، مما يؤدي إلى فهم أفضل ونتائج تعليمية محسنة. تركز النماذج الكبيرة متعددة الوسائط للغة (MLLMs) الحالية بشكل رئيسي على الإجابة عن الأسئلة، وغالبًا ما تتجاهل الإمكانات الكاملة لمهارات طرح الأسئلة وتقييمها. مستوحاة من آلية التعلم البشرية، نقدم إطار عمل مبتكر يُسمى LOVA3، والذي يُترجم إلى "التعلم لفهم الأسئلة والسؤال والتقييم البصري"، مصمم لتمكين نماذج MLLMs من اكتساب هذه القدرات الإضافية. يعتمد نهجنا على إنشاء مهمتين تدريبيتين مكمّلتين: GenQA وEvalQA، بهدف تنمية مهارات طرح الأسئلة وتقييمها في سياق الصور. ولتطوير القدرة على طرح الأسئلة، قمنا بجمع مجموعة شاملة من المهام الأساسية متعددة الوسائط. أما في مجال التقييم، فقد قدمنا معيارًا جديدًا يُسمى EvalQABench، يحتوي على 64,000 عينة تدريبية (موزعة بالتساوي بين العينات الإيجابية والسلبية) و5,000 عينة للتحقق والاختبار. نعتقد أن تعزيز نماذج MLLMs بالقدرات على الإجابة عن الأسئلة، وطرحها، وتقييمها، سيُعزز فهمها متعدد الوسائط، وبالتالي يُحسّن أداؤها العام. ولتأكيد هذا الفرض، قمنا بتدريب نماذج MLLMs باستخدام إطار LOVA3، ثم قمنا بتقييمها على مجموعة متنوعة من مجموعات البيانات والمعاير متعددة الوسائط. أظهرت نتائجنا تحسينات مستمرة في الأداء، مما يؤكد الدور الحاسم لهذه المهام الإضافية في تعزيز الذكاء الشامل في نماذج MLLMs. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/showlab/LOVA3.