HyperAIHyperAI
منذ 2 أشهر

إعادة التفكير في توليد مقترحات متنوعة ومميزة للترقيم البصري

Zhou Yu; Jun Yu; Chenchao Xiang; Zhou Zhao; Qi Tian; Dacheng Tao
إعادة التفكير في توليد مقترحات متنوعة ومميزة للترقيم البصري
الملخص

يهدف التثبيت البصري (Visual Grounding) إلى تحديد موقع كائن في صورة يشار إليها بعبارة نصية. تم اقتراح العديد من نماذج التثبيت البصري، ويمكن تقسيم المشكلة إلى إطار عام يتكون من ثلاثة مكونات: توليد الاقتراحات، تمثيل الميزات متعددة الوسائط، وترتيب الاقتراحات. من بين هذه المكونات الثلاثة، تركز معظم النماذج الحالية على المكونين الأخيرين، مع إهمال أهمية توليد الاقتراحات بشكل عام. في هذا البحث، نعيد النظر في مشكلة الخصائص التي تجعل مولد الاقتراحات جيدًا. نقدم التنوع والتمييز معًا عند توليد الاقتراحات، وفي هذا الإطار نقترح نموذج شبكات اقتراح متنوعة ومميزة (Diversified and Discriminative Proposal Networks - DDPN). بناءً على الاقتراحات التي يتم توليدها بواسطة DDPN، نقترح نموذج خط أساس عالي الأداء للتثبيت البصري ونقوم بتقييمه على أربع مجموعات بيانات معيارية. تظهر النتائج التجريبية أن نموذجنا يقدم تحسينات كبيرة على جميع المجموعات البيانات التي تم اختبارها (مثل زيادة بنسبة 18.8٪ في دقة ReferItGame وزيادة بنسبة 8.2٪ في دقة Flickr30k Entities مقارنة بأفضل النماذج الحالية).

إعادة التفكير في توليد مقترحات متنوعة ومميزة للترقيم البصري | أحدث الأوراق البحثية | HyperAI