إعادة النظر في البارزية المرئية: معيار كبير وموديل جديد

في هذا البحث، نسهم في دراسة البارزة في الفيديو بطريقتين. أولاً، نقدم معيارًا جديدًا لتنبؤ حركة العين البشرية أثناء مشاهدة المشاهد الديناميكية بحرية، وهو ما كان مطلوبًا منذ فترة طويلة في هذا المجال. مجموعة البيانات الخاصة بنا، التي أطلقنا عليها اسم DHF1K (Dynamic Human Fixation)، تتكون من 1000 سلسلة فيديو عالية الجودة ومختارة بدقة تغطي نطاقًا واسعًا من المشاهد والحركات وأنواع الأشياء وتعقيد الخلفية. تعاني المجموعات الحالية للبيانات المرتبطة بالفيديو من نقص التنوع والشمولية للمشاهد الديناميكية الشائعة وتقصر في تغطية المواقف الصعبة في بيئات غير مقيدة. على النقيض من ذلك، يحقق DHF1K قفزة كبيرة فيما يتعلق بالمرونة والتنوع والصعوبة، ومن المتوقع أن يعزز نمذجة البارزة في الفيديو. ثانيًا، نقترح نموذج بارزة في الفيديو جديد يستخدم آليات الانتباه (attention mechanism) لتعزيز هندسة الشبكة العصبية التلافيفية-الشبكة الطويلة الأمد ذات الذاكرة القصيرة (CNN-LSTM) لتحقيق تعلم بارزة سريع ومن"text-to-end". تقوم آلية الانتباه بتشفير المعلومات الثابتة للبارزة بشكل صريح، مما يسمح للشبكة LSTM بالتركيز على تعلم تمثيل زمني أكثر مرونة عبر الإطارات المتتالية. مثل هذا التصميم يستغل بشكل كامل المجموعات الكبيرة الحجم للبيانات الثابتة للبارزة، ويتجنب الانطباع الزائد ويحسن بشكل كبير كفاءة التدريب وأداء الاختبار. قمنا بفحص أداء النموذج الخاص بنا بشكل شامل مقارنة بأحدث النماذج للبارزة على ثلاث مجموعات بيانات كبيرة الحجم (أي: DHF1K، Hollywood2، UCF sports). بينت نتائج التجارب التي شملت أكثر من 1,200 فيديو اختباري تحتوي على 400,000 إطار أن نموذجنا يتفوق على المنافسين الآخرين.请注意,为了符合阿拉伯语的书写习惯,我将文本从右到左进行了排版。同时,对于一些不常见的术语,我在括号内添加了英文原文以确保信息的完整性。