نمذجة البارزة الموحدة للصور والفيديوهات

نمذجة البارزة البصرية للصور والفيديوهات تُعالج كمهمتين مستقلتين في الأدبيات الحديثة لرؤية الحاسوب. بينما تعد نمذجة البارزة البصرية للصور مشكلة مُدروسة جيدًا وتتباطأ التقدم في المعايير مثل SALICON وMIT300، أظهرت نماذج البارزة البصرية للفيديو تحسينات سريعة على معيار DHF1K الحديث. هنا، نقوم بخطوة إلى الخلف ونطرح السؤال: هل يمكن التعامل مع نمذجة البارزة البصرية للصور والفيديوهات من خلال نموذج موحد يحقق فائدة متبادلة؟ نحدد مصادر مختلفة للتغير النطاقي بين بيانات البارزة البصرية للصور وللفيديو وبين مختلف مجموعات بيانات البارزة البصرية للفيديو كتحدي رئيسي لتحقيق النمذجة المشتركة الفعالة. لمعالجة هذا التحدي، نقترح أربع تقنيات جديدة لتكييف النطاق - الأولويات القابلة للتكييف حسب النطاق (Domain-Adaptive Priors)، الاندماج القابل للتكييف حسب النطاق (Domain-Adaptive Fusion)، التمهيد القابل للتكييف حسب النطاق (Domain-Adaptive Smoothing) وBypass-RNN - بالإضافة إلى صياغة محسنة للأولويات الجاوسية المُتعلمة. ندمج هذه التقنيات في شبكة بسيطة وخفيفة الوزن ذات هيكل مُشفر-RNN-مُفكك، والتي نطلق عليها اسم UNISAL، ونقوم بتدريبها بشكل مشترك باستخدام بيانات البارزة البصرية للصور وللفيديو. نقيم طريقة عملنا على مجموعات بيانات البارزة البصرية للفيديو DHF1K وهوليوود-2 وUCF-Sports، وعلى مجموعات بيانات البارزة البصرية للصور SALICON وMIT300. باستخدام مجموعة واحدة من المعلمات، تحقق UNISAL أفضل الأداء على جميع مجموعات بيانات البارزة البصرية للفيديو وهي على قدم المساواة مع أفضل الأداء لمجموعات بيانات البارزة البصرية للصور، رغم أن وقت تشغيلها أسرع وأن حجمها أصغر بمقدار 5 إلى 20 مرة بالمقارنة مع جميع الأساليب العميقة المنافسة. نقدم تحليلات رetrospective وأبحاث إزالة تؤكد أهمية نمذجة التغير النطقي. الرمز البرمجي متاح على https://github.com/rdroste/unisal