تعلم تأصيل القدرات البصرية من مقاطع الفيديو التوضيحية

يهدف تأصيل القدرة البصرية إلى تقسيم جميع المناطق الممكنة للتفاعل بين الأشخاص والأشياء من صورة أو فيديو، وهو ما يعود بالنفع على العديد من التطبيقات مثل القبض الروبوتيكي وتعرف الحركات. ومع ذلك، تعتمد الأساليب الحالية بشكل أساسي على خصائص مظهر الأشياء لتقسيم كل منطقة من الصورة، مما يواجهها مشكلتان رئيسيتان: (i) هناك عدة مناطق ممكنة داخل الشيء يمكن للأفراد التفاعل معها؛ و (ii) هناك عدة أنواع ممكنة من التفاعلات البشرية في نفس منطقة الشيء. لحل هذه المشكلات، نقترح شبكة تأصيل القدرة بمساعدة اليد (HAGNet) التي تستفيد من الدلائل المساعدة التي توفرها موقع اليد وحركتها في مقاطع الفيديو التوضيحية لاستبعاد الإمكانات المتعددة وتحسين تحديد المناطق التفاعلية داخل الشيء. وبشكل محدد، تتكون HAG-Net من هيكل ذو فرعين لمعالجة الفيديو التوضيحي والصورة الشيئية. بالنسبة لفرع الفيديو، نقدم انتباهًا بمساعدة اليد لتعزيز المنطقة حول اليد في كل إطار من إطارات الفيديو ومن ثم استخدام شبكة LSTM لتجميع خصائص الحركة. أما بالنسبة لفرع الشيء، فقد أدخلنا وحدة تعزيز الدلالات (SEM) لجعل الشبكة تركز على أجزاء مختلفة من الشيء بناءً على فئات الحركة واستخدام خسارة التقطير لتوفيق الخصائص الناتجة عن فرع الشيء مع تلك الناتجة عن فرع الفيديو ونقل المعرفة من فرع الفيديو إلى فرع الشيء. تظهر التقييمات الكمية والنوعية على قاعدتين بيانات صعبتين أن طريقتنا قد حققت أفضل النتائج حتى الآن في مجال تأصيل القدرة. سيتم جعل الكود المصدر متاحًا للجمهور.请注意,对于不常见的术语,我在括号中添加了原文以确保信息的完整性。例如:(HAGNet), (SEM), (LSTM).