عدة أمثلة على العد الكائنات مع تحسين الميزات الواعية بالتشابه

تُعنى هذه الدراسة بمشكلة عد الأشياء في حالات القليل من الأمثلة (few-shot object counting)، وهي تهدف إلى حساب عدد الأشياء المُمثلة في صورة الاستعلام (query image) بناءً على صورة أو صور داعمة (support images) واحدة أو أكثر تصفها. يكمن التحدي الرئيسي في أن الأشياء المستهدفة قد تكون مُحاطة كثيفًا في صورة الاستعلام، مما يجعل من الصعب تمييز كل كائن على حدة. لمواجهة هذا التحدي، نقترح كتلة تعلم جديدة، مزودة بوحدة مقارنة التشابه ووحدة تعزيز الميزات. بشكل مفصل، وبمجرد إدخال صورة داعمة وصورة استعلام، نحصل أولًا على خريطة تقييم (score map) من خلال مقارنة الميزات المُشَرَّعة (projected features) في كل موقع فراغي. ثم نجمع خرائط التقييم الناتجة عن جميع صور الدعم ونُعَدِّلها (نُORMALIZE) على طول كلا البُعدين: البُعد المُمثل للأمثلة (exemplar dimension) والبُعد الفراغي، مما يُنتج خريطة تشابه موثوقة. بعد ذلك، نُعزز ميزات صورة الاستعلام باستخدام ميزات الصور الداعمة، وذلك باستخدام التشابهات النقطية (point-wise similarities) المُطوَّرة كمعاملات وزن. يُشجع هذا التصميم النموذج على تحليل صورة الاستعلام من خلال التركيز أكثر على المناطق المشابهة لصور الدعم، ما يؤدي إلى حدود أكثر وضوحًا بين الأشياء المختلفة. أظهرت التجارب الواسعة على مجموعات بيانات متنوعة وبيئات تدريب مختلفة أننا نتفوق على أحدث الطرق بفارق كبير. على سبيل المثال، على مجموعة بيانات FSC-147 الكبيرة حديثًا، تحسّننا على أداء أفضل طريقة حالية من خلال خفض الخطأ المطلق المتوسط من 22.08 إلى 14.32 (بزيادة بنسبة 35٪). تم إتاحة الكود المصدر على الرابط: https://github.com/zhiyuanyou/SAFECount.