تكيف نماذج الرؤية واللغة دون تسميات: مراجعة شاملة

نمذج الرؤية واللغة (VLMs) أظهرت قدرات تعميم مميزة عبر مجموعة واسعة من المهام. ومع ذلك، تظل أداؤها غير مثالي غالبًا عند تطبيقها مباشرة على سيناريوهات تطبيقية محددة دون تكييف مخصص للمهمة. ولتعزيز فعاليتها مع الحفاظ على كفاءة البيانات، ركّزت الأبحاث الحديثة بشكل متزايد على أساليب التكييف غير المُعلَّم التي لا تعتمد على بيانات مُعلَّمة. وعلى الرغم من الاهتمام المتزايد في هذا المجال، لا تزال هناك نقص في مراجعة موحدة وموجهة للمهام تتناول تكييف نمذج الرؤية واللغة غير المُعلَّم. ولسد هذه الفجوة، نقدّم نظرة شاملة ومنظمة للحقل. ونُقدّم تصنيفًا يعتمد على توفر الطبيعة والبيانات البصرية غير المُعلَّمة، ويصنف الأساليب الحالية إلى أربع مناهج رئيسية: التحويل بدون بيانات (لا توجد بيانات)، والتحويل غير المُعلَّم بين المجالات (بيانات كثيرة)، وتكييف وقت الاختبار المتكرر (بيانات متعددة في دفعات)، وتكييف وقت الاختبار المباشر (بيانات متسلسلة). ضمن هذا الإطار، نحلل الأساليب الأساسية واستراتيجيات التكييف المرتبطة بكل منهج، بهدف بناء فهم منهجي للحقل. علاوةً على ذلك، نراجع معايير تمثيلية في تطبيقات متنوعة، ونُبرز التحديات المفتوحة والاتجاهات الواعدة لأبحاث المستقبل. يُتاح مخزن مُحدَّث بشكل مستمر للدراسات ذات الصلة عبر الرابط: https://github.com/tim-learn/Awesome-LabelFree-VLMs.