HyperAIHyperAI
منذ 2 أشهر

جسر الفجوة بين التمثيلات على مستوى الكائن وعلى مستوى الصورة للكشف عن المفردات المفتوحة

Hanoona Rasheed; Muhammad Maaz; Muhammad Uzair Khattak; Salman Khan; Fahad Shahbaz Khan
جسر الفجوة بين التمثيلات على مستوى الكائن وعلى مستوى الصورة للكشف عن المفردات المفتوحة
الملخص

المستشعرات الحالية للكشف عن الأشياء ذات المفردات المفتوحة تزيد عادة من حجم مفرداتها من خلال الاستفادة من أشكال مختلفة من الإشراف الضعيف. هذا يساعد على التعميم إلى أشياء جديدة أثناء الاستدلال. يتضمن نوعان شائعان من الإشراف الضعيف المستخدم في الكشف عن المفردات المفتوحة (OVD) النموذج المُعد مسبقًا CLIP والإشراف على مستوى الصورة. نلاحظ أن كلا هذين نمطَي الإشراف ليسا مُحَدَّدَيْن بشكل أمثل للمهمة: يتم تدريب CLIP باستخدام أزواج صورة-نص ويفتقر إلى تحديد دقيق لمواقع الأشياء، بينما تم استخدام الإشراف على مستوى الصورة مع قواعد افتراضية لا تحدد بدقة المناطق المحلية للأجسام. في هذا العمل، نقترح معالجة هذه المشكلة من خلال تنفيذ توجيه متمركز حول الأجسام للتمثيلات اللغوية من نموذج CLIP. بالإضافة إلى ذلك، نقوم بتوضيح الأجسام باستخدام الإشراف على مستوى الصورة فقط عبر عملية وضع العلامات الوهمية التي توفر مقترحات أجسام عالية الجودة وتساعد في توسيع المفردات أثناء التدريب. ننشئ جسرًا بين الاستراتيجيتين السابقتين للتوجيه الجسماني عبر دالة نقل وزني جديدة تجمع قواهما التكميلية. بجوهره، يسعى النموذج المقترح إلى تقليص الفجوة بين التمثيلات الجسمانية والصورية في إعداد OVD. على معيار COCO، يحقق النهج المقترح 36.6 AP50 للأصناف الجديدة، بمكسب مطلق قدره 8.2 فوق أفضل الأداء السابق. بالنسبة لـ LVIS، نتفوق على أفضل النماذج الحالية ViLD بمقدار 5.0 mask AP للأصناف النادرة و3.4 بشكل عام. الرمز: https://github.com/hanoonaR/object-centric-ovd.

جسر الفجوة بين التمثيلات على مستوى الكائن وعلى مستوى الصورة للكشف عن المفردات المفتوحة | أحدث الأوراق البحثية | HyperAI