ما وراء كاشف الكائن المُدرّب مسبقًا: السياق البصري والنصي عبر الوسائط لوصف الصور

أحرز تقدم كبير في توليد العناوين المرئية، إلى حد كبير اعتمادًا على السمات المُدرَّبة مسبقًا والمسحّات الكائنية الثابتة التي تعمل كمدخلات غنية للنماذج التلقائية التوليدية. ومع ذلك، فإن أحد القيود الرئيسية لهذه الأساليب هو أن إخراج النموذج يعتمد فقط على مخرجات مُسَحِّص الكائنات. إن الافتراض بأن هذه المخرجات يمكنها تمثيل جميع المعلومات الضرورية هو غير واقعي، خصوصًا عندما يتم نقل المسحّص بين مجموعات بيانات مختلفة. في هذا العمل، نُحلّل النموذج البياني الناتج عن هذا الافتراض، ونُقترح إضافة مدخل إضافي لتمثيل المعلومات المفقودة، مثل علاقات الكائنات. ونُقترح تحديدًا استخراج السمات والعلاقات من مجموعة بيانات Visual Genome واعتماد النموذج المُولّد للعناوين عليها. وبشكل حاسم، نُقترح (وأثبتنا أهميته) استخدام نموذج مُدرّب مُتعدد الوسائط (CLIP) لاسترداد هذه الوصفات السياقية. علاوةً على ذلك، فإن نماذج مُسَحِّص الكائنات تكون متجمدة ولا تمتلك كفاية غنى لتمكين نموذج توليد العناوين من تثبيت مخرجاته بشكل مناسب. ونتيجة لذلك، نُقترح تثبيت كل من مخرجات المسحّص ونتائج الوصف على الصورة، ونُظهر بشكل كمي ونوعي أن هذا يمكن أن يُحسّن التثبيت (grounding). ونُختبر طريقة العمل على مهام توليد العناوين للصور، ونُجري تحليلات شاملة لكل مكوّن وأهمية النموذج المُدرّب مسبقًا متعدد الوسائط، ونُظهر تحسينات كبيرة مقارنة بالحالة الحالية، خصوصًا بزيادة قدرها +7.5% في معامل CIDEr و+1.3% في معامل BLEU-4.