نماذج التحويل البصري الجاهزة: أساسية مفاجئة لعدّ التصنيف القليل دون اعتبار الفئة

يهدف العد غير المُصنَّف حسب الفئة (CAC) إلى عد الكائنات المُهمة من صورة طلب، مع إعطاء عدد قليل من الأمثلة التوضيحية. ويُعالج هذا المهمة عادةً من خلال استخراج الميزات من صورة الطلب والأمثلة على حدة، ثم مطابقة تشابه هذه الميزات، مما يؤدي إلى نموذج استخراج ثم مطابقة. في هذا العمل، نُظهر أن يمكن تبسيط CAC بطريقة استخراج وتمثيل في آن واحد، وخاصة باستخدام نموذج التحويل البصري (ViT)، حيث يتم تنفيذ استخراج الميزات ومطابقة التشابه في نفس الوقت داخل عملية الانتباه الذاتي. ونكشف عن الأساس النظري لهذا التبسيط من منظور منفصل لعملية الانتباه الذاتي. الناتج هو نموذج يُسمى CACViT، الذي يبسط عملية CAC إلى نموذج واحد مُدرَّب مسبقًا من نوع ViT عادي. علاوةً على ذلك، ولتعويض فقدان معلومات الحجم والترتيب الرتبي الناتجة عن عملية إعادة التحجيم والتوحيد في ViT العادي، نقدّم استراتيجيتين فعالتين لتمثيل الحجم والترتيب الرتبي. أظهرت التجارب الواسعة على مجموعتي بيانات FSC147 وCARPK أن CACViT يتفوّق بشكل كبير على أحدث الطرق المُتّبعة في CAC من حيث الكفاءة (بانخفاض بنسبة 23.60% في الخطأ) والقدرة على التعميم، ما يشير إلى أن CACViT يقدّم قاعدةً موجزة وقوية لمهام CAC. سيتم إتاحة الشفرة البرمجية.