HyperAIHyperAI
منذ 10 أيام

تعزيز الإدراك والقابلية للتفسير في النماذج الأساسية متعددة الوسائط باستخدام بيانات مُولَّدة ذاتيًا

Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
تعزيز الإدراك والقابلية للتفسير في النماذج الأساسية متعددة الوسائط باستخدام بيانات مُولَّدة ذاتيًا
الملخص

أظهرت النماذج الكبيرة متعددة الوسائط (LMMs) قدرات مذهلة في مجموعة واسعة من المهام البصرية. ومع ذلك، غالبًا ما تواجه صعوبات في التفكير البصري الدقيق، حيث تفشل في تحديد الأهداف المحددة حسب المجال وتقديم تبريرات مجدية لتنبؤاتها. لمعالجة هذه المشكلة، نقترح إطارًا جديدًا للتأخير البصري (Visual Rejection Sampling) لتحسين القدرة الإدراكية والقابلية للتفسير لدى النماذج الكبيرة متعددة الوسائط باستخدام بيانات مُولَّدة ذاتيًا. بشكل محدد، تتطلب التدريب الدقيق البصري صورًا، واستفسارات، والإجابات المستهدفة. يبدأ نهجنا بتكوين إجابات قابلة للتفسير تضم ميزات بصرية يمكن التحقق منها من قبل البشر. تعتمد هذه الميزات على مفاهيم محددة من قبل الخبراء، تم اختيارها بعناية بناءً على توافقها مع محتوى الصورة. وبعد كل جولة من التدريب الدقيق، نطبق آلية تصفية خالية من نموذج المكافأة لاختيار أفضل إجابات قابلة للتفسير لجولة التدريب التالية. يُحسّن هذا العملية التكرارية لتركيب البيانات والتدريب الدقيق تدريجيًا قدرة النموذج على إنتاج تفسيرات دقيقة ومعقولة. تُظهر النتائج التجريبية فعالية طريقة عملنا في تحسين كل من الدقة والقابلية للتفسير في المهام البصرية التصنيفية المتخصصة.

تعزيز الإدراك والقابلية للتفسير في النماذج الأساسية متعددة الوسائط باستخدام بيانات مُولَّدة ذاتيًا | أحدث الأوراق البحثية | HyperAI