HyperAIHyperAI
منذ 2 أشهر

LLaMA-Adapter V2: نموذج تعليم بصرى فعال من حيث المعلمات

Peng Gao; Jiaming Han; Renrui Zhang; Ziyi Lin; Shijie Geng; Aojun Zhou; Wei Zhang; Pan Lu; Conghui He; Xiangyu Yue; Hongsheng Li; Yu Qiao
LLaMA-Adapter V2: نموذج تعليم بصرى فعال من حيث المعلمات
الملخص

كيفية تحويل النماذج اللغوية الكبيرة (LLMs) بكفاءة إلى نماذج تتبع التعليمات هي اتجاه بحثي شائع حديثًا، بينما لا يزال تدريب LLM للتفكير متعدد الوسائط أقل استكشافًا. رغم أن LLaMA-Adapter الحديث يظهر الإمكانات في التعامل مع المدخلات البصرية باستخدام النماذج اللغوية الكبيرة، فإنه لا يزال غير قادر على التعميم بشكل جيد للتعليمات البصرية المفتوحة ويتخلف عن GPT-4. في هذا البحث، نقدم LLaMA-Adapter V2، وهو نموذج تعليمات بصري كفء من حيث المعلمات. بصفة خاصة، قمنا أولًا بتعزيز LLaMA-Adapter من خلال فتح المزيد من المعلمات القابلة للتعلم (مثل التسوية والانحياز والمقياس)، مما يوزع قدرة تتبع التعليمات عبر كامل نموذج LLaMA بالإضافة إلى المحولات. ثانيًا، اقترحنا استراتيجية دمج مبكر لإدخال الرموز البصرية فقط في الطبقات الأولى من النموذج اللغوي الكبير، مما يساهم في دمج أفضل للمعرفة البصرية. ثالثًا، تم تقديم مفهوم التدريب المشترك للأزواج الصورة-النص والبيانات الخاصة بتتبع التعليمات من خلال تحسين مجموعات متفرقة من المعلمات القابلة للتعلم. هذه الاستراتيجية تخفف بشكل فعال التداخل بين مهمتي تناسق الصورة والنص وتتبع التعليمات وتحقق تفكيرًا متعدد الوسائط قويًا باستخدام مجموعة بيانات صورة-نص وتتبع تعليمات صغيرة الحجم فقط. أثناء الاستدلال، نقوم بدمج نماذج خبراء إضافية (مثل أنظمة الوصف/التعرف على الأحرف) في LLaMA-Adapter لتعزيز قدرتها على فهم الصور دون زيادة تكلفة التدريب. بالمقارنة مع LLaMA-Adapter الأصلي، يمكن لـ LLaMA-Adapter V2 أداء تعليمات متعددة الوسائط مفتوحة النهايات بمجرد إدخال 14 مليون معلمة فوق LLaMA. الإطار الجديد المصمم أيضًا يظهر قدرات أقوى لتتبع التعليمات اللغوية فقط وحتى يتميز بأداء أفضل في التفاعلات الدردشة. رمز البرامج والنماذج متاحة على https://github.com/ZrrSkywalker/LLaMA-Adapter.

LLaMA-Adapter V2: نموذج تعليم بصرى فعال من حيث المعلمات | أحدث الأوراق البحثية | HyperAI