BLIP: تدريب لغة-صورة مُعزز للفهم الموحد وتوليد الصور واللغة

التدريب المسبق للرؤية واللغة (VLP) قد أدى إلى تحسين الأداء في العديد من مهام الرؤية واللغة. ومع ذلك، فإن معظم النماذج المدربة مسبقًا الحالية تتفوق إما في المهام القائمة على الفهم أو في المهام القائمة على التوليد. بالإضافة إلى ذلك، تم تحقيق معظم التحسينات في الأداء من خلال توسيع نطاق مجموعة البيانات باستخدام أزواج صورة-نص غير دقيقة تم جمعها من الإنترنت، وهي مصدر غير مثالي للإشراف. في هذا البحث، نقترح BLIP، وهو إطار جديد للتدريب المسبق للرؤية واللغة يمكنه الانتقال بمرنقة إلى كل من مهام فهم الرؤية واللغة ومهام توليد الرؤية واللغة. يستخدم BLIP بيانات الويب غير الدقيقة بكفاءة عن طريق تعزيز العناوين، حيث يقوم نظام إنشاء العناوين بإنتاج عناوين اصطناعية ويقوم مرشح بإزالة العناوين غير الدقيقة. لقد حققنا نتائج رائدة في مجال التقنية على مجموعة واسعة من مهام الرؤية واللغة، مثل استرجاع الصورة-النص (+2.7% في معدل الاسترجاع@1 المتوسط)، وإنشاء عناوين الصور (+2.8% في مؤشر CIDEr)، واستجواب الصور المرئية (+1.6% في درجة VQA). كما أظهر BLIP قدرة قوية على التعميم عند نقله مباشرة إلى مهام الفيديو-اللغة بطريقة لا تحتوي على أي أمثلة سابقة (zero-shot). تم إطلاق الكود والنماذج ومجموعات البيانات على https://github.com/salesforce/BLIP.