الملخص

المستشعرات الحالية للكشف عن الأشياء ذات المفردات المفتوحة تزيد عادة من حجم مفرداتها من خلال الاستفادة من أشكال مختلفة من الإشراف الضعيف. هذا يساعد على التعميم إلى أشياء جديدة أثناء الاستدلال. يتضمن نوعان شائعان من الإشراف الضعيف المستخدم في الكشف عن المفردات المفتوحة (OVD) النموذج المُعد مسبقًا CLIP والإشراف على مستوى الصورة. نلاحظ أن كلا هذين نمطَي الإشراف ليسا مُحَدَّدَيْن بشكل أمثل للمهمة: يتم تدريب CLIP باستخدام أزواج صورة-نص ويفتقر إلى تحديد دقيق لمواقع الأشياء، بينما تم استخدام الإشراف على مستوى الصورة مع قواعد افتراضية لا تحدد بدقة المناطق المحلية للأجسام. في هذا العمل، نقترح معالجة هذه المشكلة من خلال تنفيذ توجيه متمركز حول الأجسام للتمثيلات اللغوية من نموذج CLIP. بالإضافة إلى ذلك، نقوم بتوضيح الأجسام باستخدام الإشراف على مستوى الصورة فقط عبر عملية وضع العلامات الوهمية التي توفر مقترحات أجسام عالية الجودة وتساعد في توسيع المفردات أثناء التدريب. ننشئ جسرًا بين الاستراتيجيتين السابقتين للتوجيه الجسماني عبر دالة نقل وزني جديدة تجمع قواهما التكميلية. بجوهره، يسعى النموذج المقترح إلى تقليص الفجوة بين التمثيلات الجسمانية والصورية في إعداد OVD. على معيار COCO، يحقق النهج المقترح 36.6 AP50 للأصناف الجديدة، بمكسب مطلق قدره 8.2 فوق أفضل الأداء السابق. بالنسبة لـ LVIS، نتفوق على أفضل النماذج الحالية ViLD بمقدار 5.0 mask AP للأصناف النادرة و3.4 بشكل عام. الرمز: https://github.com/hanoonaR/object-centric-ovd.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

جسر الفجوة بين التمثيلات على مستوى الكائن وعلى مستوى الصورة للكشف عن المفردات المفتوحة

Hanoona Rasheed extsuperscript1,* Muhammad Maaz extsuperscript1,* Muhammad Uzair Khattak extsuperscript1 Salman Khan extsuperscript1,2 Fahad Shahbaz Khan extsuperscript1,3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جسر الفجوة بين التمثيلات على مستوى الكائن وعلى مستوى الصورة للكشف عن المفردات المفتوحة

Hanoona Rasheed extsuperscript1,* Muhammad Maaz extsuperscript1,* Muhammad Uzair Khattak extsuperscript1 Salman Khan extsuperscript1,2 Fahad Shahbaz Khan extsuperscript1,3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جسر الفجوة بين التمثيلات على مستوى الكائن وعلى مستوى الصورة للكشف عن المفردات المفتوحة

Hanoona Rasheed extsuperscript1,* Muhammad Maaz extsuperscript1,* Muhammad Uzair Khattak extsuperscript1 Salman Khan extsuperscript1,2 Fahad Shahbaz Khan extsuperscript1,3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters