تعلم عد كل شيء

الأعمال الحالية في مجال العد البصري تركز بشكل أساسي على فئة محددة واحدة في كل مرة، مثل الأشخاص والحيوانات والخلايا. في هذا البحث، نهتم بعد كل شيء، أي عد الأشياء من أي فئة معطاة بناءً على عدد قليل من الحالات المُشَرَّحة من تلك الفئة. لتحقيق هذا الهدف، نعتبر مشكلة العد كمهمة تنبؤية ذات أمثلة قليلة (Few-shot Regression). لمعالجة هذه المهمة، نقدم طريقة جديدة تأخذ صورة استعلامية مع بعض الأمثلة من الأشياء الموجودة فيها وتتنبأ بخريطة كثافة لوجود جميع الأشياء محل الاهتمام في الصورة الاستعلامية. كما نقدم استراتيجية تكيف جديدة لتكيف شبكتنا مع أي فئة بصرية جديدة أثناء الاختبار باستخدام فقط عدد قليل من الأمثلة من الفئة الجديدة. بالإضافة إلى ذلك، نقدم مجموعة بيانات تحتوي على 147 فئة من الأشياء وتشمل أكثر من 6000 صورة ملائمة للمهمة التنبؤية ذات الأمثلة القليلة (Few-shot Counting). تم تشريح الصور باستخدام نوعين من التشريح: النقاط والمربعات الحدودية (Bounding Boxes)، ويمكن استخدامها لتطوير نماذج العد ذات الأمثلة القليلة. التجارب على هذه المجموعة البيانات أظهرت أن طريقتنا تتفوق على العديد من الكاشفات الرائدة للأجسام وطرق العد ذات الأمثلة القليلة. يمكن الوصول إلى شفرتنا ومجموعتنا البيانات عبر الرابط: https://github.com/cvlab-stonybrook/LearningToCountEverything.