تمثيل، مقارنة، وتعلّم: إطار يراعي التشابه للعد المستقل عن الفئة

يهدف العد غير المرتبط بالفئة (Class-agnostic counting, CAC) إلى حساب جميع الحالات في صورة الاستعلام باستخدام عدد قليل من الأمثلة التوضيحية. يعتمد النموذج القياسي على استخراج الميزات البصرية من الأمثلة التوضيحية ثم مطابقتها مع صور الاستعلام لاستنتاج عدد الكائنات. وتشكل مكونان أساسيان في هذا النموذج: تمثيل الميزات ودالة التشابه. تُستخدم الطرق الحالية إما شبكة مُدرّبة مسبقًا لتمثيل الميزات، أو تتعلم تمثيلًا جديدًا، مع تطبيق دالة تشابه بسيطة تعتمد على الضرب الداخلي الثابت. ونجد أن هذا النموذج يُؤدي إلى مطابقة تشابه ضوضائية، مما يضر بأداء العد. في هذا العمل، نقترح إطارًا لـ CAC يراعي التشابه، حيث يتعلم التمثيل ودالة التشابه معًا. نبدأ بتطبيق إطارنا على نموذج أساسي بسيط يُسمى شبكة المطابقة الثنائية (Bilinear Matching Network, BMNet)، الذي يتميز بمكون رئيسي هو دالة تشابه ثنائية قابلة للتعلم. ومن أجل توضيح جوهر إطارنا بشكل أعمق، نطوّر BMNet إلى نموذج يُسمى BMNet+، الذي يُمثّل التشابه من ثلاث جوانب: 1) تمثيل الحالات من خلال تشابهها الذاتي لتعزيز مقاومة الميزات للتغيرات داخل الفئة؛ 2) مقارنة التشابه بشكل ديناميكي لتركيز الانتباه على الأنماط الأساسية لكل مثال توضيحي؛ 3) التعلم من إشارة إشرافية لفرض قيود صريحة على نتائج المطابقة. أظهرت التجارب الواسعة على مجموعة بيانات CAC الحديثة FSC147 أن نماذجنا تتفوّق بشكل كبير على أحدث الطرق المُتقدمة في مجال CAC. بالإضافة إلى ذلك، تم التحقق من قدرة النموذجين BMNet وBMNet+ على التعميم عبر المجموعات المختلفة، وذلك على مجموعة بيانات عد السيارات CARPK. الكود متاح على الرابط: tiny.one/BMNet