HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة التفكير في توليد مقترحات متنوعة ومميزة للترقيم البصري

Zhou Yu Jun Yu* Chenchao Xiang Zhou Zhao Qi Tian Dacheng Tao

الملخص

يهدف التثبيت البصري (Visual Grounding) إلى تحديد موقع كائن في صورة يشار إليها بعبارة نصية. تم اقتراح العديد من نماذج التثبيت البصري، ويمكن تقسيم المشكلة إلى إطار عام يتكون من ثلاثة مكونات: توليد الاقتراحات، تمثيل الميزات متعددة الوسائط، وترتيب الاقتراحات. من بين هذه المكونات الثلاثة، تركز معظم النماذج الحالية على المكونين الأخيرين، مع إهمال أهمية توليد الاقتراحات بشكل عام. في هذا البحث، نعيد النظر في مشكلة الخصائص التي تجعل مولد الاقتراحات جيدًا. نقدم التنوع والتمييز معًا عند توليد الاقتراحات، وفي هذا الإطار نقترح نموذج شبكات اقتراح متنوعة ومميزة (Diversified and Discriminative Proposal Networks - DDPN). بناءً على الاقتراحات التي يتم توليدها بواسطة DDPN، نقترح نموذج خط أساس عالي الأداء للتثبيت البصري ونقوم بتقييمه على أربع مجموعات بيانات معيارية. تظهر النتائج التجريبية أن نموذجنا يقدم تحسينات كبيرة على جميع المجموعات البيانات التي تم اختبارها (مثل زيادة بنسبة 18.8٪ في دقة ReferItGame وزيادة بنسبة 8.2٪ في دقة Flickr30k Entities مقارنة بأفضل النماذج الحالية).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة التفكير في توليد مقترحات متنوعة ومميزة للترقيم البصري | مستندات | HyperAI