الوصف التفصيلي للصورة باستخدام المكافأة المُعتمدَة على CLIP

تُدرَّب نماذج توليد العناوين الحديثة للصور عادةً باستخدام أهداف مماثلة للنصوص. ومع ذلك، نظرًا لأن عناوين المراجع في المجموعات العامة للبيانات غالبًا ما تصف الكائنات الشائعة الأكثر بروزًا، فإن النماذج التي تُدرَّب باستخدام أهداف المماثلة النصية تميل إلى تجاهل الجوانب الخاصة والتفصيلية للصورة التي تميّزها عن غيرها. من أجل توليد عناوين أكثر وصفية وتميزًا، نقترح استخدام نموذج CLIP، وهو مشفر متعدد الوسائط تم تدريبه على كميات هائلة من أزواج الصور والنصوص المستمدة من الويب، لحساب المماثلة المتعددة الوسائط واستخدامها كدالة مكافأة. كما نقترح استراتيجية بسيطة لتعديل النموذج النصي لـ CLIP لتحسين القواعد النحوية دون الحاجة إلى تسميات نصية إضافية. وهذا يُلغِي تمامًا الحاجة إلى عناوين مرجعية أثناء عملية حساب المكافأة. ولتقييم شامل للعناوين الوصفية، نقدّم FineCapEval، وهي مجموعة بيانات جديدة لتقييم العناوين باستخدام معايير دقيقة: الشمولية، الخلفية، الكائنات، والعلاقات. في تجاربنا على استرجاع الصور من النصوص واستخدام مجموعة FineCapEval، تُنتج النموذج المُوجَّه بـ CLIP عناوين أكثر تميّزًا مقارنةً بنموذج مُحسَّن باستخدام CIDEr. كما نُظهر أن تعديلنا غير المُراقب للنموذج النصي لـ CLIP يُخفِّف من مشكلة التدهور الناتجة عن استخدام المكافأة البسيطة لـ CLIP. وأخيرًا، نُقدّم تحليلًا بشريًا يُظهر أن المُقيّمين يفضّلون بشدة مكافأة CLIP على معايير مختلفة مقارنةً بـ CIDEr وMLE. الكود والبيانات: https://github.com/j-min/CLIP-Caption-Reward