CoLLaVO: نموذج الرؤية واللغة الكبير لقلم الصلصال

النجاح الملحوظ لنموذج اللغات الكبيرة (LLMs) وضبط التعليمات يدفع تطور نماذج الرؤية واللغة (VLMs) نحو نموذج عام متعدد الاستخدامات. ومع ذلك، لا يزال من غير المعلوم ما إذا كانت النماذج الحالية من VLMs تتمتع حقًا بقدرات فهم صور على مستوى الأشياء يتم تحديدها من خلال أسئلة مثل "ما هي الأشياء الموجودة في الصورة؟" أو "أي شيء يتوافق مع الصندوق الحددي المحدد؟". كشفت نتائجنا أن قدرات فهم الصور للنماذج الحالية من VLMs مرتبطة ارتباطًا قويًا بأدائها في مهام الرؤية واللغة (VL) بدون تدريب سابق. هذا يشير إلى أن التركيز على فهم الصور الأساسي أمر حاسم لنماذج VLMs لتحقيق التفوق في مهام VL. لتعزيز فهم الصور على مستوى الأشياء، نقترح نموذج Crayon Large Language and Vision mOdel (CoLLaVO)، الذي يدمج ضبط التعليمات مع Crayon Prompt كخطة جديدة لضبط الدفع البصري تعتمد على خرائط الألوان البانورامية. بالإضافة إلى ذلك، نقدم استراتيجية تعلم Dual QLoRA لحفظ فهم الصور على مستوى الأشياء دون نسيانه أثناء ضبط التعليمات البصرية، مما يؤدي إلى قفزة كبيرة في العديد من مقاييس VL بدون تدريب سابق.