HyperAIHyperAI

Command Palette

Search for a command to run...

BLIP-2: تمهيد التدريب المزدوج للغة والصورة باستخدام مشفّرات الصور المتجمدة ونماذج اللغة الكبيرة

Junnan Li Dongxu Li Silvio Savarese Steven Hoi

الملخص

لقد أصبحت تكلفة التدريب المسبق للرؤية واللغة مكلفة بشكل متزايد بسبب التدريب الشامل للنماذج الكبيرة الحجم. يقترح هذا البحث استراتيجية تدريب مسبق عامة وكفؤة تُعرف بـ BLIP-2، والتي تعتمد على استخدام مُشفرات الصور المتدربة مسبقًا جاهزة للاستخدام (off-the-shelf) ومُجمدة (frozen)، بالإضافة إلى نماذج اللغة الكبيرة المتدربة مسبقًا والمُجمدة. يعمل BLIP-2 على ردم الفجوة بين الوسائط المتعددة باستخدام محول استفسار خفيف الوزن (Querying Transformer)، والذي يتم تدريبه في مرحلتين. تتضمن المرحلة الأولى الاستفادة من التعلم المشترك للرؤية واللغة من خلال استخدام مشفر الصور المُجمد. أما المرحلة الثانية فتعمل على تعزيز التعلم الجينري للرؤية إلى اللغة من خلال استخدام نموذج اللغة المُجمد. رغم أن BLIP-2 يحتوي على عدد قليل بكثير من المعالم القابلة للتدريب مقارنة بالطرق الموجودة حاليًا، إلا أنه حقق أداءً غير مسبوق في مجموعة متنوعة من مهمات الرؤية واللغة. على سبيل المثال، تتفوق نموذجنا بنسبة 8.7% على نموذج Flamingo80B في مهمة VQAv2 بدون تدريب (zero-shot) مع وجود 54 ضعف أقل من المعالم القابلة للتدريب. كما أظهر النموذج قدراته الناشئة في إنشاء النصوص من الصور بدون تدريب، والتي يمكنها اتباع التعليمات اللغوية الطبيعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp