OmniCount: عد الأشياء متعددة التصنيفات باستخدام الأولويات الدلالية-الهندسية

عد الأشياء يعد أمرًا حاسمًا لفهم تركيب المشاهد. في السابق، كانت هذه المهمة تهيمن عليها طرق محددة للتصنيف، والتي تطورت تدريجيًا إلى استراتيجيات أكثر مرونة وغير مرتبطة بتصنيف معين. ومع ذلك، فإن لهذه الاستراتيجيات مجموعة من القيود الخاصة بها، مثل الحاجة إلى إدخال نماذج يدوية ومرورات متعددة لأصناف مختلفة، مما يؤدي إلى كفاءة منخفضة بشكل كبير. يقدم هذا البحث نهجًا أكثر عملية يمكّن من عد أصناف متعددة من الأشياء بشكل متزامن باستخدام إطار مفتوح للمفردات. يعتبر حلنا، OmniCount (عوميكونت)، مميزًا لأنه يستخدم الرؤى الدلالية والهندسية (المعلومات الأولية) من النماذج المدربة مسبقًا لعد أصناف متعددة من الأشياء حسب ما يحدد المستخدمون، دون الحاجة إلى تدريب إضافي. يتميز OmniCount بإنشاء أقنعة دقيقة للأجسام واستخدام دواعٍ تفاعلية متنوعة عبر نموذج تقسيم أي شيء (Segment Anything Model) لتحقيق العد بكفاءة عالية. لتقييم OmniCount، قمنا بإنشاء مقاييس OmniCount-191 (عوميكونت-191)، وهي أول مجموعة بيانات من نوعها تحتوي على عد أصناف متعددة للأجسام مع نقاط ومستطيلات الحصر وشروحات VQA (Vision Question Answering). أظهر تقييمنا الشامل في OmniCount-191 وبقية المقاييس الرائدة أن OmniCount حققت أداءً استثنائيًا، حيث تتفوق بشكل كبير على الحلول الموجودة حاليًا. يمكن الوصول إلى صفحة الويب الخاصة بالمشروع على الرابط https://mondalanindya.github.io/OmniCount.