HyperAIHyperAI

Command Palette

Search for a command to run...

ما وراء كاشف الكائن المُدرّب مسبقًا: السياق البصري والنصي عبر الوسائط لوصف الصور

Chia-Wen Kuo Zsolt Kira

الملخص

أحرز تقدم كبير في توليد العناوين المرئية، إلى حد كبير اعتمادًا على السمات المُدرَّبة مسبقًا والمسحّات الكائنية الثابتة التي تعمل كمدخلات غنية للنماذج التلقائية التوليدية. ومع ذلك، فإن أحد القيود الرئيسية لهذه الأساليب هو أن إخراج النموذج يعتمد فقط على مخرجات مُسَحِّص الكائنات. إن الافتراض بأن هذه المخرجات يمكنها تمثيل جميع المعلومات الضرورية هو غير واقعي، خصوصًا عندما يتم نقل المسحّص بين مجموعات بيانات مختلفة. في هذا العمل، نُحلّل النموذج البياني الناتج عن هذا الافتراض، ونُقترح إضافة مدخل إضافي لتمثيل المعلومات المفقودة، مثل علاقات الكائنات. ونُقترح تحديدًا استخراج السمات والعلاقات من مجموعة بيانات Visual Genome واعتماد النموذج المُولّد للعناوين عليها. وبشكل حاسم، نُقترح (وأثبتنا أهميته) استخدام نموذج مُدرّب مُتعدد الوسائط (CLIP) لاسترداد هذه الوصفات السياقية. علاوةً على ذلك، فإن نماذج مُسَحِّص الكائنات تكون متجمدة ولا تمتلك كفاية غنى لتمكين نموذج توليد العناوين من تثبيت مخرجاته بشكل مناسب. ونتيجة لذلك، نُقترح تثبيت كل من مخرجات المسحّص ونتائج الوصف على الصورة، ونُظهر بشكل كمي ونوعي أن هذا يمكن أن يُحسّن التثبيت (grounding). ونُختبر طريقة العمل على مهام توليد العناوين للصور، ونُجري تحليلات شاملة لكل مكوّن وأهمية النموذج المُدرّب مسبقًا متعدد الوسائط، ونُظهر تحسينات كبيرة مقارنة بالحالة الحالية، خصوصًا بزيادة قدرها +7.5% في معامل CIDEr و+1.3% في معامل BLEU-4.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp