Command Palette
Search for a command to run...
مُشفّر عصبي تكراري مُوجه بالتدفق للكشف عن الكائنات البارزة في الفيديو
مُشفّر عصبي تكراري مُوجه بالتدفق للكشف عن الكائنات البارزة في الفيديو
Liang Lin Keze Wang Tianhao Wei Guanbin Li Yuan Xie
الملخص
تم تسجيل تقدم كبير في كشف الاهتمام البصري للصور في الآونة الأخيرة بفضل الشبكات العصبية التلافيفية العميقة. ومع ذلك، فإن تمديد أحدث أجهزة كشف الاهتمام من الصور إلى الفيديو يُعد تحديًا كبيرًا. تتأثر أداء كشف الكائنات البارزة بسبب حركة الكائنات أو الكاميرا، والتغير الكبير في تباين المظهر داخل مقاطع الفيديو. في هذه الورقة، نقدم إطار عمل دقيق ومتعدد المراحل يُسمى FGRNE (المحول العصبي التكراري الموجه بالتدفق)، وهو إطار لتعلم شامل ودقيق لكشف الكائنات البارزة في الفيديو. يعمل هذا الإطار على تعزيز الاتساق الزمني للسمات الخاصة بكل إطار من خلال استغلال معلومات الحركة المتمثلة في التدفق البصري (optical flow)، بالإضافة إلى تشفير تطور السمات المتسلسلة باستخدام شبكات LSTM. يمكن اعتبار FGRNE إطارًا عامًا يمكن استخدامه لتوسيع أي كاشف للاهتمام الثابت القائم على الشبكة العصبية التلافيفية (FCN) ليصبح قادرًا على كشف الكائنات البارزة في الفيديو. وقد أثبتت النتائج التجريبية المكثفة فعالية كل جزء من FGRNE، وتأكيد أن الطريقة المقترحة تتفوق بشكل كبير على الطرق المتطورة حاليًا على المعايير العامة DAVIS وFBMS.