شبكة المُشفر-المُفكك السياقية لتنبؤ البارزة البصرية

تنبؤ المناطق البارزة في الصور الطبيعية يتطلب الكشف عن الأشياء الموجودة في المشهد. لتطوير تمثيلات قوية لهذه المهمة الصعبة، يجب استخراج الخصائص البصرية عالية المستوى بمقياس فضائي متعدد وتعزيزها بالمعلومات السياقية. ومع ذلك، فإن النماذج الحالية التي تهدف إلى شرح خرائط التركيز البشري لا تدمج مثل هذه الآلية بشكل صريح. هنا نقترح نهجًا يستند إلى شبكة عصبية تقنية التحويل (Convolutional Neural Network) مُدربة مسبقًا على مهمة تصنيف الصور بحجم كبير. تتكون الهندسة من هيكل مشفر-مفكك (Encoder-Decoder) ويتضمن وحدة ذات طبقات تقنية التحويل المتعددة بمعدلات توسيع مختلفة لالتقاط الخصائص متعددة المقياس بشكل متوازي. بالإضافة إلى ذلك، نجمع بين التمثيلات الناتجة والمعلومات الشاملة للمشهد للتنبؤ بدقة بالسلاسيفة البصرية. يحقق نموذجنا نتائج تنافسية ومتسقة عبر عدة مقاييس تقييم على منصتين عامتين لتقييم السلاسيفة، ونثبت فعالية النهج المقترح على خمسة مجموعات بيانات وأمثلة مختارة. بالمقارنة مع أفضل الأساليب الحالية، يعتمد الشبكة على هيكل أساسي خفيف الوزن لتصنيف الصور وبالتالي تعد خيارًا مناسبًا للتطبيقات ذات الموارد الحوسبة المحدودة، مثل أنظمة الروبوتات (الافتراضية)، لتقدير نقاط تركيز الإنسان عبر مشاهد طبيعية معقدة.