HyperAIHyperAI

Command Palette

Search for a command to run...

InstructBLIP: نحو نماذج رؤية-لغة عامة مع ضبط التعليمات

Wenliang Dai Junnan Li Dongxu Li Anthony Meng Huat Tiong Junqi Zhao Weisheng Wang Boyang Li Pascale Fung Steven Hoi

الملخص

تم تحقيق نجاح كبير في تدريب النماذج اللغوية ذات الأغراض العامة وضبطها وفقًا للتعليمات بفضل التوزيعات الإدخالية الغنية ومتنوعة المهام التي تنجم عن الإدخال البصري الإضافي. ومع ذلك، فإن بناء نماذج بصرو-لغوية ذات أغراض عامة يمثل تحديًا بسبب هذه العوامل. رغم أن التدريب البصرو-لغوي قد تم دراسته على نطاق واسع، لا يزال ضبط التعليمات البصرو-لغوية قليل الدراسة. في هذا البحث، نقوم بإجراء دراسة منهجية شاملة لضبط التعليمات البصرو-لغوية اعتمادًا على النماذج المدربة مسبقًا من BLIP-2. نجمع 26 مجموعة بيانات متاحة للجمهور، تغطي مجموعة واسعة من المهام والقدرات، ونحولها إلى صيغة ضبط التعليمات. بالإضافة إلى ذلك، نقدم محول استعلامات مدرك للتعليمات (Query Transformer)، الذي يستخرج خصائص معلوماتية مخصصة للتعليمات المعطاة. بعد التدريب على 13 مجموعة بيانات داخلية، يصل InstructBLIP إلى أفضل أداء بدون رؤية سابقة (zero-shot) في جميع 13 مجموعة البيانات الخارجية، مما يتفوق بشكل كبير على BLIP-2 والنماذج الأكبر حجمًا مثل Flamingo. كما أن نماذجنا تحقق أداءً رائدًا عند التعديل الدقيق (fine-tuning) على مهام فردية لاحقة (مثلاً، دقة بنسبة 90.7% في أسئلة ScienceQA مع سياقات صورية). علاوة على ذلك، نبين كميًا المزايا التي يتمتع بها InstructBLIP على النماذج المتعددة الوسائط المعاصرة. تم إتاحة جميع نماذج InstructBLIP كمصدر مفتوح على الرابط https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp