عد الأشياء بدون تدريب باستخدام الدلائل

يتعامل هذا البحث مع مشكلة عد الأشياء في الصور. تعتمد الأساليب الحالية على بيانات تدريب واسعة النطاق تحتوي على نقاط توضيحية لكل كائن، مما يجعل جمع البيانات مكثفًا للعمل ومكلفًا من حيث الوقت. لتجاوز هذا التحدي، نقترح نظام عد أشياء خالٍ من التدريب يعالج مهمة العد كمشكلة تقسيم (Segmentation). يستفيد نهجنا من نموذج تقسيم أي شيء (SAM)، المعروف بجودة أقنعته العالية وقدرته على التقسيم دون الحاجة إلى تعلم سابق (Zero-shot Segmentation). ومع ذلك، فإن طريقة إنشاء الأقنعة القياسية في SAM تفتقر إلى المعلومات الخاصة بكل فئة في الأقنعة، مما يؤدي إلى دقة عد أقل. لتجاوز هذه القيد، نقدم طريقة إنشاء أقنعة موجهة بالبيانات الأولية تدمج ثلاثة أنواع من البيانات الأولية في عملية التقسيم، مما يعزز الكفاءة والدقة. بالإضافة إلى ذلك، نعالج مشكلة عد الأشياء المحددة عبر النص عن طريق اقتراح نهج ذو مرحلتين يجمع بين اختيار كائن مرجعي وإنشاء أقنعة موجهة بالبيانات الأولية. تظهر التجارب الواسعة على قواعد بيانات قياسية الأداء التنافسي لنظام العد الخالي من التدريب مقترحنا مقارنة بالأساليب المستندة إلى التعلم. يقدم هذا البحث حلًّا واعدًا لعد الأشياء في سيناريوهات مختلفة دون الحاجة إلى جمع بيانات واسع النطاق أو تدريب خاص بمهمة العد. يمكن الحصول على الرمز البرمجي من الرابط \url{https://github.com/shizenglin/training-free-object-counter}