HyperAIHyperAI
منذ 11 أيام

مُشفّر عصبي تكراري مُوجه بالتدفق للكشف عن الكائنات البارزة في الفيديو

{Liang Lin, Keze Wang, Tianhao Wei, Guanbin Li, Yuan Xie}
مُشفّر عصبي تكراري مُوجه بالتدفق للكشف عن الكائنات البارزة في الفيديو
الملخص

تم تسجيل تقدم كبير في كشف الاهتمام البصري للصور في الآونة الأخيرة بفضل الشبكات العصبية التلافيفية العميقة. ومع ذلك، فإن تمديد أحدث أجهزة كشف الاهتمام من الصور إلى الفيديو يُعد تحديًا كبيرًا. تتأثر أداء كشف الكائنات البارزة بسبب حركة الكائنات أو الكاميرا، والتغير الكبير في تباين المظهر داخل مقاطع الفيديو. في هذه الورقة، نقدم إطار عمل دقيق ومتعدد المراحل يُسمى FGRNE (المحول العصبي التكراري الموجه بالتدفق)، وهو إطار لتعلم شامل ودقيق لكشف الكائنات البارزة في الفيديو. يعمل هذا الإطار على تعزيز الاتساق الزمني للسمات الخاصة بكل إطار من خلال استغلال معلومات الحركة المتمثلة في التدفق البصري (optical flow)، بالإضافة إلى تشفير تطور السمات المتسلسلة باستخدام شبكات LSTM. يمكن اعتبار FGRNE إطارًا عامًا يمكن استخدامه لتوسيع أي كاشف للاهتمام الثابت القائم على الشبكة العصبية التلافيفية (FCN) ليصبح قادرًا على كشف الكائنات البارزة في الفيديو. وقد أثبتت النتائج التجريبية المكثفة فعالية كل جزء من FGRNE، وتأكيد أن الطريقة المقترحة تتفوق بشكل كبير على الطرق المتطورة حاليًا على المعايير العامة DAVIS وFBMS.

مُشفّر عصبي تكراري مُوجه بالتدفق للكشف عن الكائنات البارزة في الفيديو | أحدث الأوراق البحثية | HyperAI