استكشاف التمركز البصري والحركة السريعة للتحسين في التحديد غير المُشرَّف الضعيف

أصبحت الشبكات العصبية العميقة الخيار الافتراضي كمحركات استخراج الميزات، وتُستخدم بشكل واسع في المهام المتعلقة بالرؤية الحاسوبية. يعتمد النهج الحالي على معالجة كل إدخال بدقة موحدة بطريقة واحدة، وإجراء جميع التنبؤات دفعة واحدة. ومع ذلك، فإن الرؤية البشرية عملية "نشطة" لا تقتصر على التحول النشط من نقطة تركيز إلى أخرى داخل المجال البصري، بل تشمل أيضًا تطبيق انتباه مُوزَّع مكانيًا مركّز حول هذه النقاط. لسد هذه الفجوة، نقترح دمج آليات واقعية بيولوجيًا تُعرف بـ "التركيز المركزي" (foveation) و"الحركات السريعة للعين" (saccades) لبناء إطار عمل نشط للتحديد الكائني. بينما يُمكّن التركيز المركزي من معالجة مناطق مختلفة من الإدخال بدرجات متفاوتة من التفاصيل، تسمح الحركات السريعة للعين بتغيير نقطة التركيز لهذه المناطق المركّزة. تُظهر تجاربنا أن هذه الآليات تُحسّن جودة الصناديق المحددة (bounding boxes) من خلال التقاط جميع الأجزاء الأساسية للكائن، مع تقليل التشويش غير الضروري من الخلفية. علاوة على ذلك، تُعزز هذه الآليات مرونة الطريقة من خلال تمكينها من اكتشاف عدة كائنات، رغم تدريبها فقط على بيانات تحتوي على كائن واحد في كل صورة. وأخيرًا، نستكشف توافق طريقة لدينا مع الإدراك البشري باستخدام التحدي البصري المثير للاهتمام المعروف بـ "البطريق-الأرنب" (duck-rabbit illusion). يمكن الوصول إلى الشفرة المصدرية عبر الرابط التالي: https://github.com/TimurIbrayev/FALcon.