HyperAIHyperAI
منذ 11 أيام

مابلي: التعلم المتعدد الوسائط للرسائل المُحفِّزة

Muhammad Uzair Khattak, Hanoona Rasheed, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan
مابلي: التعلم المتعدد الوسائط للرسائل المُحفِّزة
الملخص

أظهرت نماذج الرؤية واللغة المُدرَّبة مسبقًا مثل CLIP قدرة ممتازة على التعميم إلى المهام اللاحقة. ومع ذلك، فهي حساسة لاختيار النصوص المُدخلة كـ"مُحفِّزات" (prompts)، وتحتاج إلى اختيار دقيق لأنماط المُحفِّزات لتحقيق أداء جيد. مستلهمين من الأدبيات المتعلقة بمعالجة اللغة الطبيعية (NLP)، اعتمدت الأساليب الحديثة لتعديل CLIP على تعلُّم المُحفِّزات كمدخلات نصية لضبط نموذج CLIP للمهام اللاحقة. نلاحظ أن استخدام المُحفِّزات لتعديل التمثيلات في فرع واحد من CLIP (اللغة أو الرؤية) ليس الأمثل، لأنه لا يسمح بالمرونة الكافية لتعديل فضاءي التمثيل ديناميكيًا حسب المهمة اللاحقة. في هذا العمل، نقترح طريقة تسمى التعلم المتعدد الأوجه للمُحفِّزات (MaPLe) التي تُطبَّق على كلا الفرعَين المرئي واللغوي، بهدف تحسين التوافق بين تمثيلات الرؤية واللغة. ويُعزز تصميمنا الترابط القوي بين مُحفِّزات الرؤية واللغة، مما يضمن تآزرًا متبادلًا، ويُقلل من احتمال تعلُّم حلول أحادية الوجه (uni-modal) مستقلة. علاوةً على ذلك، نُعلِّم مُحفِّزات منفصلة في مراحل مبكرة مختلفة، بهدف نمذجة العلاقات بين الميزات بشكل تدريجي حسب المراحل، مما يسمح بتعلم سياق غني. وقد قُمنا بتقييم فعالية منهجنا على ثلاث مهام تمثلية تتعلق بالتعميم إلى فئات جديدة، وبيانات مستهدفة جديدة، وانزياحات مجال غير مرئية. مقارنةً بالطريقة الرائدة حاليًا (Co-CoOp)، تُظهر MaPLe أداءً متميزًا، وتُحقِّق مكسبًا مطلقًا قدره 3.45% في الفئات الجديدة، و2.72% في المتوسط التوافقي العام، مُتوسطةً على 11 مجموعة بيانات متنوعة لتمييز الصور. يمكن الوصول إلى الكود النموذجي والنموذج المُدرَّب مسبقًا عبر الرابط: https://github.com/muzairkhattak/multimodal-prompt-learning.

مابلي: التعلم المتعدد الوسائط للرسائل المُحفِّزة | أحدث الأوراق البحثية | HyperAI