HyperAIHyperAI
منذ 11 أيام

تتبع يلتقي بـ LoRA: تدريب أسرع، نموذج أكبر، أداء أقوى

Liting Lin, Heng Fan, Zhipeng Zhang, Yaowei Wang, Yong Xu, Haibin Ling
تتبع يلتقي بـ LoRA: تدريب أسرع، نموذج أكبر، أداء أقوى
الملخص

مُحفَّزين بنهج التخصيص الفعّال من حيث المعلمات (PEFT) في النماذج اللغوية الضخمة، نقدّم LoRAT، وهي طريقة تُظهِر القوة الكاملة للنموذج البصري الكبير من نوع ViT في مهام التتبع ضمن موارد معملية محدودة. تكمن الجوهرية في عملنا في تكييف تقنية LoRA، التي تُخصِّص مجموعة صغيرة من معلمات النموذج دون إضافة تأخير في عملية الاستدلال، لتناسب مجال التتبع البصري. ومع ذلك، فإن التحديات الفريدة والفراغات المحتملة بين المجالات تجعل هذا النقل غير سهل كما قد يبدو أولًا. أولاً، يُنشئ مُتتبع يستند إلى المحول (Transformer) تمثيلات موضعية غير مشتركة للصورة النموذجية والصورة المُستهدفة. وهذا يُشكّل تحديًا لنقل تقنية LoRA، التي تتطلب عادةً اتساقًا في التصميم عند تطبيقها على الهيكل الأساسي المُدرّب مسبقًا ثم على المهام اللاحقة. ثانيًا، يُقلّل التحيز الاستنتاجي المتأصّل في الرؤوس القائمة على التحويلات التلافيفية (Convolutional Heads) من فعالية التخصيص الفعّال من حيث المعلمات في نماذج التتبع. لتجاوز هذه القيود، نُفصّل أولًا تمثيلات الموضع في مُتتبعات المحول إلى نوعين: تمثيلات موضعية مشتركة فضائية، وتمثيلات مستقلة حسب النوع. تُرَتَّب التمثيلات المشتركة، التي تصف الإحداثيات المطلقة للصور متعددة الدقة (أي الصورة النموذجية والصورة المستهدفة)، من الهيكل الأساسي المُدرّب مسبقًا. في المقابل، تُدرَّس التمثيلات المستقلة، التي تشير إلى مصدر كل رمز (Token)، من الصفر. علاوةً على ذلك، نصمم رأسًا لا يعتمد على المُعلّقات (Anchor-free) مبنيًا بالكامل على الشبكات العصبية متعددة الطبقات (MLP) لتكييف PETR، مما يُحسّن الأداء مع تقليل الأعباء الحسابية. وبفضل هذا التصميم، أصبح ممكنًا: 1) تدريب متتبعات باستخدام الهيكل الأساسي ViT-g على وحدات معالجة الرسوميات (GPU) ذات ذاكرة فقط 25.8 جيجابايت (بمعدل دفعة 16)؛ 2) تقليل وقت التدريب للنسخة L-224 من 35.0 إلى 10.8 ساعات معالجة GPU؛ 3) تحسين درجة أداء LaSOT SUC من 0.703 إلى 0.742 باستخدام النسخة L-224؛ 4) زيادة سرعة الاستدلال للنسخة L-224 من 52 إلى 119 إطارًا في الثانية. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/LitingLin/LoRAT.

تتبع يلتقي بـ LoRA: تدريب أسرع، نموذج أكبر، أداء أقوى | أحدث الأوراق البحثية | HyperAI