تحسين المُدخلات القابلة للقراءة لتعلم قليل العينات متعدد الوسائط البصري-اللغوي

في السنوات الأخيرة، أثبتت طريقة تعديل النص المُوجِّه (prompt tuning) فعاليتها في تكييف النماذج البصرية-اللغوية المُدرَّبة مسبقًا لمهام متعددة. تهدف هذه الطرق إلى تكييف النماذج المُدرَّبة مسبقًا من خلال إدخال نصوص مُوجِّهة قابلة للتعلم، مع الحفاظ على ثوابت التدريب المسبق دون تعديل. ومع ذلك، قد تؤثر النصوص القابلة للتعلم على التمثيل الداخلي داخل وحدة الانتباه الذاتي (self-attention)، مما قد يُضعف الأداء وتباينه، ويقلل من القدرة على التعميم، خاصة في البيئات التي تعاني من نقص في البيانات. ولحل هذه المشكلات، نقترح منهجية جديدة تُسمى تحسين النصوص القابلة للقراءة فقط (Read-only Prompt Optimization - RPO). تعتمد RPO على استخدام الانتباه المُغَطَّى (masked attention) لمنع التحول في التمثيل الداخلي داخل النموذج المُدرَّب مسبقًا. علاوةً على ذلك، لتسهيل عملية تحسين RPO، يتم تهيئة النصوص القابلة للقراءة فقط بناءً على الرموز الخاصة (special tokens) في النموذج المُدرَّب مسبقًا. تُظهر التجارب الواسعة أن RPO تتفوّق على CLIP وCoCoOp في التعميم من المهام الأساسية إلى المهام الجديدة (base-to-new generalization) والتمثيل العام للنطاق (domain generalization)، مع إظهار مرونة أفضل. كما تحقق الطريقة المقترحة تعميمًا أفضل في البيئات التي تعاني من نقص شديد في البيانات، مع تحسين كفاءة المعلمات وتقليل التكاليف الحسابية. يُمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/mlvlab/RPO.