HyperAIHyperAI
منذ 2 أشهر

BLIP-2: تمهيد التدريب المزدوج للغة والصورة باستخدام مشفّرات الصور المتجمدة ونماذج اللغة الكبيرة

Li, Junnan ; Li, Dongxu ; Savarese, Silvio ; Hoi, Steven
BLIP-2: تمهيد التدريب المزدوج للغة والصورة باستخدام مشفّرات الصور المتجمدة ونماذج اللغة الكبيرة
الملخص

لقد أصبحت تكلفة التدريب المسبق للرؤية واللغة مكلفة بشكل متزايد بسبب التدريب الشامل للنماذج الكبيرة الحجم. يقترح هذا البحث استراتيجية تدريب مسبق عامة وكفؤة تُعرف بـ BLIP-2، والتي تعتمد على استخدام مُشفرات الصور المتدربة مسبقًا جاهزة للاستخدام (off-the-shelf) ومُجمدة (frozen)، بالإضافة إلى نماذج اللغة الكبيرة المتدربة مسبقًا والمُجمدة. يعمل BLIP-2 على ردم الفجوة بين الوسائط المتعددة باستخدام محول استفسار خفيف الوزن (Querying Transformer)، والذي يتم تدريبه في مرحلتين. تتضمن المرحلة الأولى الاستفادة من التعلم المشترك للرؤية واللغة من خلال استخدام مشفر الصور المُجمد. أما المرحلة الثانية فتعمل على تعزيز التعلم الجينري للرؤية إلى اللغة من خلال استخدام نموذج اللغة المُجمد. رغم أن BLIP-2 يحتوي على عدد قليل بكثير من المعالم القابلة للتدريب مقارنة بالطرق الموجودة حاليًا، إلا أنه حقق أداءً غير مسبوق في مجموعة متنوعة من مهمات الرؤية واللغة. على سبيل المثال، تتفوق نموذجنا بنسبة 8.7% على نموذج Flamingo80B في مهمة VQAv2 بدون تدريب (zero-shot) مع وجود 54 ضعف أقل من المعالم القابلة للتدريب. كما أظهر النموذج قدراته الناشئة في إنشاء النصوص من الصور بدون تدريب، والتي يمكنها اتباع التعليمات اللغوية الطبيعية.

BLIP-2: تمهيد التدريب المزدوج للغة والصورة باستخدام مشفّرات الصور المتجمدة ونماذج اللغة الكبيرة | أحدث الأوراق البحثية | HyperAI