HyperAIHyperAI
منذ 11 أيام

التعلم الموجه بالاتساق للنماذج البصرية-اللغوية

Shuvendu Roy, Ali Etemad
التعلم الموجه بالاتساق للنماذج البصرية-اللغوية
الملخص

نُقدِّم طريقة التعلم المُوجَّه بالاتساق (CoPrompt)، وهي طريقة جديدة للضبط الدقيق (fine-tuning) للنماذج البصرية-اللغوية. تُحسِّن هذه الطريقة من قدرة النماذج الكبيرة الأساسية على التعميم عند ضبطها على مهام تطبيقية محددة في بيئة التعلم بكمية محدودة من الأمثلة (few-shot). الفكرة الأساسية لـ CoPrompt هي فرض قيد اتساق في التنبؤ بين النموذج القابل للضبط والنموذج المُدرَّب مسبقًا، بهدف منع التعلم الزائد (overfitting) على المهمة التطبيقية. بالإضافة إلى ذلك، نُدخِل عناصرين جديدين إلى قيد الاتساق لتعزيز الأداء بشكل أكبر: فرض الاتساق على مدخلين مُعدَّلين (مُتَبَعَّثَين) ودمج النمطين الرئيسيين في ضبط النموذج، وهما التوجيه (prompting) والمحفِّزات (adapters). يُسهم فرض الاتساق على المدخلات المُعدَّلة في تقوية قيد الاتساق بشكل إضافي، مما يُحسِّن من التعميم. علاوةً على ذلك، يُعزِّز دمج المحَفِّزات مع التوجيه ليس فقط الأداء على المهام التطبيقية، بل يُوفِّر أيضًا مرونة أكبر في عملية الضبط ضمن فضاءي المدخلات والمخرجات. وهذا يُسهِّل التكيُّف الفعّال مع المهام التطبيقية في بيئة التعلم بكمية محدودة من الأمثلة. تُظهر التجارب أن CoPrompt تتفوَّق على الطرق الحالية في مجموعة متنوعة من مجموعات التقييم، بما في ذلك التعميم من النموذج الأساسي إلى المهام الجديدة، والتعميم عبر المجالات، والتقييم عبر المجموعات المختلفة. وفيما يتعلق بالقدرة على التعميم، تُحسِّن CoPrompt الأداء الراهن في المهام ذات الصفر نماذج (zero-shot) والمعيار الهارموني العام على 11 مجموعة بيانات. وتبين الدراسات التحليلية التفصيلية فعالية كل عنصر من عناصر CoPrompt. نُزوِّد بالكود المصدر في الرابط التالي: https://github.com/ShuvenduRoy/CoPrompt.

التعلم الموجه بالاتساق للنماذج البصرية-اللغوية | أحدث الأوراق البحثية | HyperAI