HyperAIHyperAI
منذ 2 أشهر

CoCa: النماذج الأساسية للصور والنصوص من خلال المعلقين التباينيين

Jiahui Yu; Zirui Wang; Vijay Vasudevan; Legg Yeung; Mojtaba Seyedhosseini; Yonghui Wu
CoCa: النماذج الأساسية للصور والنصوص من خلال المعلقين التباينيين
الملخص

استكشاف النماذج الأساسية المدربة مسبقًا على نطاق واسع يحظى باهتمام كبير في مجال رؤية الحاسوب لأن هذه النماذج يمكن نقلها بسرعة إلى العديد من المهام اللاحقة. يقدم هذا البحث تصميمًا بسيطًا للنموذج الأساسي المشفر-المفكك للصورة والنص (CoCa) يتم تدريبه مسبقًا بشكل مشترك باستخدام الخسارة التباينية (contrastive loss) وخسارة الوصف (captioning loss)، مما يجمع بين قدرات النماذج التباينية مثل CLIP والطرق التوليدية مثل SimVLM. على عكس المتحولات المشفرة-المفككة القياسية حيث تركز جميع طبقات المفكك على مخرجات المشفر، يتجاهل CoCa التركيز العرضي في النصف الأول من طبقات المفكك لترميز النص الأحادي الوضع، ثم يتدرج في الطبقات المتبقية للمفكك التي تركز عرضيًا على مشفر الصورة لتمثيلات متعددة الأوضاع للصورة والنص. نطبق خسارة تباينية بين تمثيلات الصور والنصوص الأحادية الوضع، بالإضافة إلى خسارة الوصف على مخرجات المفكك المتعدد الأوضاع التي تتوقع الرموز النصية بطريقة ذاتية الانحدار. من خلال مشاركة نفس الرسم البياني الحسابي، يتم حساب هدفي التدريب بكفاءة وبأقل تكلفة إضافية. يتم تدريب CoCa من البداية ومنتهيًا بشكل شامل باستخدام بيانات الوصف البديل على مستوى الويب والصور المشمولة بالتعليقات عن طريق معاملة جميع العلامات ببساطة كنص، مما يوحّد الإشراف اللغوي الطبيعي لتعلم التمثيل. عمليًا، حقق CoCa أفضل أداء معروف حتى الآن دون أي تعلم إضافي أو بأدنى تعديل محدد للمهمة في مجموعة واسعة من المهام اللاحقة، والتي تشمل التعرف البصري (ImageNet, Kinetics-400/600/700, Moments-in-Time)، واسترجاع متعدد الأوضاع (MSCOCO, Flickr30K, MSR-VTT)، وفهم متعدد الأوضاع (VQA, SNLI-VE, NLVR2)، ووصف الصور (MSCOCO, NoCaps). بشكل لافت للنظر في تصنيف ImageNet، حقق CoCa دقة تصنيف صفرية بنسبة 86.3%، ونسبة 90.6% باستخدام مشفر ثابت ومصنف تم تعلمه، وسجل أعلى دقة معروفة حتى الآن بنسبة 91.0% في تصنيف ImageNet باستخدام مشفر تم ضبطه بدقة.

CoCa: النماذج الأساسية للصور والنصوص من خلال المعلقين التباينيين | أحدث الأوراق البحثية | HyperAI