InstructBLIP: نحو نماذج رؤية-لغة عامة مع ضبط التعليمات

تم تحقيق نجاح كبير في تدريب النماذج اللغوية ذات الأغراض العامة وضبطها وفقًا للتعليمات بفضل التوزيعات الإدخالية الغنية ومتنوعة المهام التي تنجم عن الإدخال البصري الإضافي. ومع ذلك، فإن بناء نماذج بصرو-لغوية ذات أغراض عامة يمثل تحديًا بسبب هذه العوامل. رغم أن التدريب البصرو-لغوي قد تم دراسته على نطاق واسع، لا يزال ضبط التعليمات البصرو-لغوية قليل الدراسة. في هذا البحث، نقوم بإجراء دراسة منهجية شاملة لضبط التعليمات البصرو-لغوية اعتمادًا على النماذج المدربة مسبقًا من BLIP-2. نجمع 26 مجموعة بيانات متاحة للجمهور، تغطي مجموعة واسعة من المهام والقدرات، ونحولها إلى صيغة ضبط التعليمات. بالإضافة إلى ذلك، نقدم محول استعلامات مدرك للتعليمات (Query Transformer)، الذي يستخرج خصائص معلوماتية مخصصة للتعليمات المعطاة. بعد التدريب على 13 مجموعة بيانات داخلية، يصل InstructBLIP إلى أفضل أداء بدون رؤية سابقة (zero-shot) في جميع 13 مجموعة البيانات الخارجية، مما يتفوق بشكل كبير على BLIP-2 والنماذج الأكبر حجمًا مثل Flamingo. كما أن نماذجنا تحقق أداءً رائدًا عند التعديل الدقيق (fine-tuning) على مهام فردية لاحقة (مثلاً، دقة بنسبة 90.7% في أسئلة ScienceQA مع سياقات صورية). علاوة على ذلك، نبين كميًا المزايا التي يتمتع بها InstructBLIP على النماذج المتعددة الوسائط المعاصرة. تم إتاحة جميع نماذج InstructBLIP كمصدر مفتوح على الرابط https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.