HyperAIHyperAI

Command Palette

Search for a command to run...

تعزيز الإدراك والقابلية للتفسير في النماذج الأساسية متعددة الوسائط باستخدام بيانات مُولَّدة ذاتيًا

Yucheng Shi Quanzheng Li Jin Sun Xiang Li Ninghao Liu

الملخص

أظهرت النماذج الكبيرة متعددة الوسائط (LMMs) قدرات مذهلة في مجموعة واسعة من المهام البصرية. ومع ذلك، غالبًا ما تواجه صعوبات في التفكير البصري الدقيق، حيث تفشل في تحديد الأهداف المحددة حسب المجال وتقديم تبريرات مجدية لتنبؤاتها. لمعالجة هذه المشكلة، نقترح إطارًا جديدًا للتأخير البصري (Visual Rejection Sampling) لتحسين القدرة الإدراكية والقابلية للتفسير لدى النماذج الكبيرة متعددة الوسائط باستخدام بيانات مُولَّدة ذاتيًا. بشكل محدد، تتطلب التدريب الدقيق البصري صورًا، واستفسارات، والإجابات المستهدفة. يبدأ نهجنا بتكوين إجابات قابلة للتفسير تضم ميزات بصرية يمكن التحقق منها من قبل البشر. تعتمد هذه الميزات على مفاهيم محددة من قبل الخبراء، تم اختيارها بعناية بناءً على توافقها مع محتوى الصورة. وبعد كل جولة من التدريب الدقيق، نطبق آلية تصفية خالية من نموذج المكافأة لاختيار أفضل إجابات قابلة للتفسير لجولة التدريب التالية. يُحسّن هذا العملية التكرارية لتركيب البيانات والتدريب الدقيق تدريجيًا قدرة النموذج على إنتاج تفسيرات دقيقة ومعقولة. تُظهر النتائج التجريبية فعالية طريقة عملنا في تحسين كل من الدقة والقابلية للتفسير في المهام البصرية التصنيفية المتخصصة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp