HyperAIHyperAI

Command Palette

Search for a command to run...

طريقة محاذاة تفضيلات MIA-DPO لتحسين الصور المتعددة

التاريخ

منذ عام واحد

MIA-DPO (تحسين التفضيلات المباشرة المعززة بالصور المتعددة) هي طريقة محاذاة التفضيلات لزيادة الصور المتعددة لنماذج اللغة المرئية الكبيرة (LVLMs). تم اقتراحه بشكل مشترك من قبل جامعة شنغهاي جياو تونغ ومختبر الذكاء الاصطناعي في شنغهاي وجامعة هونغ كونغ الصينية ومؤسسات أخرى في عام 2024. نتائج الورقة ذات الصلة هي "MIA-DPO: تحسين التفضيلات المباشرة المعززة متعدد الصور لنماذج الرؤية واللغة الكبيرة". يتمثل جوهر هذه الطريقة في توسيع بيانات الصورة الفردية إلى بيانات متعددة الصور وتصميم ثلاثة تنسيقات للبيانات: التسلسل، والشبكة المجمعة، والصورة داخل الصورة، مما يقلل بشكل فعال من تكلفة جمع البيانات والتعليق عليها مع كونه قابلاً للتطوير بدرجة كبيرة.

إن مفتاح MIA-DPO هو الاستفادة من آلية الاهتمام لتحديد وتصفية الاستجابات المرفوضة التي ربما ركز عليها النموذج عن طريق الخطأ، وبالتالي إنشاء أزواج محددة/مرفوضة دون الاعتماد على التعليقات اليدوية أو البيانات الإضافية. تظهر النتائج التجريبية أن MIA-DPO يعمل بشكل جيد على 5 معايير متعددة الصور، مع تحسن متوسط في الأداء يبلغ 3.0% (على LLaVA-v1.5) و4.3% (على InternLM-XC2.5)، في حين كان التأثير ضئيلاً على قدرات فهم الصورة الفردية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
طريقة محاذاة تفضيلات MIA-DPO لتحسين الصور المتعددة | الموسوعة | HyperAI