HyperAIHyperAI
منذ 17 أيام

PVP: ضبط فعال من حيث المعلمات البصرية المُدرّب مسبقًا

Zhao Song, Ke Yang, Naiyang Guan, Junjie Zhu, Peng Qiao, Qingyong Hu
PVP: ضبط فعال من حيث المعلمات البصرية المُدرّب مسبقًا
الملخص

أظهرت النماذج الكبيرة المُدرَّبة مسبقًا من نوع المحولات (transformers) نجاحًا ملحوظًا في مهام الرؤية الحاسوبية المتنوعة. ومع ذلك، لا يزال من الصعب جدًا تدريب هذه النماذج بدقة كاملة على المهام اللاحقة نظرًا لتكاليف الحوسبة والتخزين العالية المرتبطة بها. في الآونة الأخيرة، ساهمت تقنيات التخصيص الفعّال من حيث المعلمات (Parameter-Efficient Tuning - PETuning)، مثل التخصيص المُوجه بصريًا (Visual Prompt Tuning - VPT) وتكبير الرتبة المنخفضة (Low-Rank Adaptation - LoRA)، في تقليل تكاليف الحوسبة والتخزين بشكل كبير، من خلال إدراج وحدات مُحفِّزة خفيفة الوزن داخل النماذج المُدرَّبة مسبقًا، وتخصيص هذه الوحدات باستخدام عدد قليل من المعلمات القابلة للتدريب، مع الاحتفاظ ببنية المحول (transformer backbone) ثابتة. وعلى الرغم من أن عدد المعلمات التي يجب تعديلها قليل جدًا، إلا أن معظم طرق التخصيص الفعّال من حيث المعلمات تتطلب ما يكفي من بيانات التدريب الخاصة بالمهام اللاحقة لتحقيق نتائج جيدة. وتُظهر هذه الطرق أداءً ضعيفًا في السياقات التي تفتقر إلى البيانات، خاصة عند توفر مثال واحد أو اثنين فقط لكل فئة. ولحل هذه المشكلة، قمنا أولًا بتحديد تجريبيًا أن الأداء الضعيف ناتج بشكل رئيسي عن طريقة تهيئة غير مناسبة لوحدات المُحفِّزات، وهي ملاحظة تم التحقق منها سابقًا في النماذج المُدرَّبة مسبقًا للغة. ثم قمنا بطرح إطار عمل جديد يُسمى التخصيص البصري الفعّال من حيث المعلمات المُدرَّب مسبقًا (Pre-trained Visual Parameter-efficient - PVP Tuning)، والذي يُدرِّب وحدات التخصيص الفعّالة من حيث المعلمات مسبقًا، ثم يستخدم هذه الوحدات المُدرَّبة مع بنية المحول المُدرَّب مسبقًا لإجراء عملية تخصيص فعّالة من حيث المعلمات على المهام اللاحقة. أظهرت نتائج التجارب على خمسة مجموعات بيانات تصنيف بصري دقيق (Fine-Grained Visual Classification - FGVC) وVTAB-1k أن الطريقة المقترحة تتفوق بشكل كبير على أحدث طرق التخصيص الفعّال من حيث المعلمات.