HyperAIHyperAI

Command Palette

Search for a command to run...

CoLLaVO: نموذج الرؤية واللغة الكبير لقلم الصلصال

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro

الملخص

النجاح الملحوظ لنموذج اللغات الكبيرة (LLMs) وضبط التعليمات يدفع تطور نماذج الرؤية واللغة (VLMs) نحو نموذج عام متعدد الاستخدامات. ومع ذلك، لا يزال من غير المعلوم ما إذا كانت النماذج الحالية من VLMs تتمتع حقًا بقدرات فهم صور على مستوى الأشياء يتم تحديدها من خلال أسئلة مثل "ما هي الأشياء الموجودة في الصورة؟" أو "أي شيء يتوافق مع الصندوق الحددي المحدد؟". كشفت نتائجنا أن قدرات فهم الصور للنماذج الحالية من VLMs مرتبطة ارتباطًا قويًا بأدائها في مهام الرؤية واللغة (VL) بدون تدريب سابق. هذا يشير إلى أن التركيز على فهم الصور الأساسي أمر حاسم لنماذج VLMs لتحقيق التفوق في مهام VL. لتعزيز فهم الصور على مستوى الأشياء، نقترح نموذج Crayon Large Language and Vision mOdel (CoLLaVO)، الذي يدمج ضبط التعليمات مع Crayon Prompt كخطة جديدة لضبط الدفع البصري تعتمد على خرائط الألوان البانورامية. بالإضافة إلى ذلك، نقدم استراتيجية تعلم Dual QLoRA لحفظ فهم الصور على مستوى الأشياء دون نسيانه أثناء ضبط التعليمات البصرية، مما يؤدي إلى قفزة كبيرة في العديد من مقاييس VL بدون تدريب سابق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp