HyperAIHyperAI
منذ 2 أشهر

OvarNet: نحو التعرف على خصائص الأشياء بمفردات مفتوحة

Keyan Chen; Xiaolong Jiang; Yao Hu; Xu Tang; Yan Gao; Jianqi Chen; Weidi Xie
OvarNet: نحو التعرف على خصائص الأشياء بمفردات مفتوحة
الملخص

في هذا البحث، نتناول مشكلة الكشف عن الأشياء واستنتاج خصائصها البصرية في صورة، حتى بالنسبة للأشياء التي لم يتم توفير تسميات يدوية لها أثناء مرحلة التدريب، مما يشبه السيناريو ذو المفردات المفتوحة. لتحقيق هذا الهدف، نقدم المساهمات التالية: (i) نبدأ بنهج بسيط من مرحلتين للكشف عن الأشياء ذات المفردات المفتوحة تصنيف الخصائص البصرية، والذي نطلق عليه CLIP-Attr. يتم اقتراح الأشياء المرشحة أولاً باستخدام RPN خارج الخط ثم تصنيفها حسب الفئة الدلالية والخصائص؛ (ii) ندمج جميع البيانات المتاحة ونقوم بالتدريب باستخدام استراتيجية متحدة لضبط النموذج CLIP، مما يساعد على مواءمة التمثيل البصري مع الخصائص. بالإضافة إلى ذلك، ندرس فعالية استخدام أزواج الصور-الوصف المتاحة مجانًا عبر الإنترنت تحت إشراف ضعيف (weakly supervised learning)؛ (iii) بهدف تحقيق الكفاءة، نقوم بتدريب نموذج من نوع Faster-RCNN بشكل شامل باستخدام تقنية distillation knowledge، حيث يقوم بإقتراح الأشياء دون تمييز بين الفئات وتصنيفها حسب الفئات الدلالية والخصائص باستخدام تصنيفات تولدها مُشفر النص؛ وأخيرًا، (iv) نجري تجارب واسعة على قواعد بيانات VAW، MS-COCO، LSA، وOVAD، ونوضح أن التعرف على الفئة الدلالية والخصائص هو أمر مكمل لفهم المشهد البصري. أي أن تدريب الكشف عن الأشياء وتوقع الخصائص بشكل مشترك يؤدي إلى أداء أفضل بكثير من الأساليب الحالية التي تعالج هذين المهمتين بشكل مستقل، مما يدل على قدرة تعميم قوية للخصائص والفئات الجديدة.

OvarNet: نحو التعرف على خصائص الأشياء بمفردات مفتوحة | أحدث الأوراق البحثية | HyperAI