Command Palette
Search for a command to run...
شبكة المُشفر-المُفكك السياقية لتنبؤ البارزة البصرية
شبكة المُشفر-المُفكك السياقية لتنبؤ البارزة البصرية
Alexander Kroner Mario Senden Kurt Driessen Rainer Goebel
الملخص
تنبؤ المناطق البارزة في الصور الطبيعية يتطلب الكشف عن الأشياء الموجودة في المشهد. لتطوير تمثيلات قوية لهذه المهمة الصعبة، يجب استخراج الخصائص البصرية عالية المستوى بمقياس فضائي متعدد وتعزيزها بالمعلومات السياقية. ومع ذلك، فإن النماذج الحالية التي تهدف إلى شرح خرائط التركيز البشري لا تدمج مثل هذه الآلية بشكل صريح. هنا نقترح نهجًا يستند إلى شبكة عصبية تقنية التحويل (Convolutional Neural Network) مُدربة مسبقًا على مهمة تصنيف الصور بحجم كبير. تتكون الهندسة من هيكل مشفر-مفكك (Encoder-Decoder) ويتضمن وحدة ذات طبقات تقنية التحويل المتعددة بمعدلات توسيع مختلفة لالتقاط الخصائص متعددة المقياس بشكل متوازي. بالإضافة إلى ذلك، نجمع بين التمثيلات الناتجة والمعلومات الشاملة للمشهد للتنبؤ بدقة بالسلاسيفة البصرية. يحقق نموذجنا نتائج تنافسية ومتسقة عبر عدة مقاييس تقييم على منصتين عامتين لتقييم السلاسيفة، ونثبت فعالية النهج المقترح على خمسة مجموعات بيانات وأمثلة مختارة. بالمقارنة مع أفضل الأساليب الحالية، يعتمد الشبكة على هيكل أساسي خفيف الوزن لتصنيف الصور وبالتالي تعد خيارًا مناسبًا للتطبيقات ذات الموارد الحوسبة المحدودة، مثل أنظمة الروبوتات (الافتراضية)، لتقدير نقاط تركيز الإنسان عبر مشاهد طبيعية معقدة.