طريقة محاذاة تفضيلات MIA-DPO لتحسين الصور المتعددة
MIA-DPO (تحسين التفضيلات المباشرة المعززة بالصور المتعددة) هي طريقة محاذاة التفضيلات لزيادة الصور المتعددة لنماذج اللغة المرئية الكبيرة (LVLMs). تم اقتراحه بشكل مشترك من قبل جامعة شنغهاي جياو تونغ ومختبر الذكاء الاصطناعي في شنغهاي وجامعة هونغ كونغ الصينية ومؤسسات أخرى في عام 2024. نتائج الورقة ذات الصلة هي "MIA-DPO: تحسين التفضيلات المباشرة المعززة متعدد الصور لنماذج الرؤية واللغة الكبيرة". يتمثل جوهر هذه الطريقة في توسيع بيانات الصورة الفردية إلى بيانات متعددة الصور وتصميم ثلاثة تنسيقات للبيانات: التسلسل، والشبكة المجمعة، والصورة داخل الصورة، مما يقلل بشكل فعال من تكلفة جمع البيانات والتعليق عليها مع كونه قابلاً للتطوير بدرجة كبيرة.
إن مفتاح MIA-DPO هو الاستفادة من آلية الاهتمام لتحديد وتصفية الاستجابات المرفوضة التي ربما ركز عليها النموذج عن طريق الخطأ، وبالتالي إنشاء أزواج محددة/مرفوضة دون الاعتماد على التعليقات اليدوية أو البيانات الإضافية. تظهر النتائج التجريبية أن MIA-DPO يعمل بشكل جيد على 5 معايير متعددة الصور، مع تحسن متوسط في الأداء يبلغ 3.0% (على LLaVA-v1.5) و4.3% (على InternLM-XC2.5)، في حين كان التأثير ضئيلاً على قدرات فهم الصورة الفردية.