العينة الإطارية القائمة على التعلم التعزيزي متعدد الوكلاء للاعتراف الفعال بالفيديو غير المقصوص

لقد أثار التعرف على الفيديو اهتمامًا بحثيًا كبيرًا وحققت فيه تقدمات كبيرة. يمكن أن يحسن استراتيجية العينة الإطارية المناسبة دقة وكفاءة التعرف. ومع ذلك، فإن الحلول الرئيسية عادة ما تعتمد استراتيجيات العينة الإطارية المصنوعة يدويًا للتعرف. قد يؤدي هذا إلى تدهور الأداء، خاصة في مقاطع الفيديو غير المقصوصة، بسبب اختلاف البارزة على مستوى الإطارات. لتحقيق هذا الغرض، نركز على تحسين تصنيف الفيديو غير المقصوص من خلال تطوير استراتيجية عينة إطارية قائمة على التعلم. نصوغ بشكل حدسي عملية أخذ العينات من الإطارات كعمليات قرار ماركوف متعددة متوازية، كل منها يهدف إلى اختيار إطار/قطعة عن طريق ضبط تدريجي للعينة الأولية. ثم نقترح حل المشكلات باستخدام التعلم التعزيزي المتعدد الوكلاء (MARL). يتكون إطارنا العمل للتعلم التعزيزي المتعدد الوكلاء من شبكة ملاحظة سياقية جديدة تعتمد على RNN والتي تقوم بنمذجة المعلومات السياقية بين الوكلاء المجاورين والحالات التاريخية لوكلاء معين، شبكة سياسة تولد التوزيع الاحتمالي فوق فضاء الأفعال المعرّف مسبقًا في كل خطوة، وشبكة تصنيف لحساب المكافأة والتعرف النهائي. تظهر النتائج التجريبية الشاملة أن نظامنا القائم على MARL يتفوق بشكل ملحوظ على الاستراتيجيات المصنوعة يدويًا باستخدام طرق أساسية مختلفة ثنائية الأبعاد وثلاثية الأبعاد. يحقق نموذجنا الأحادي RGB أداءً مماثلاً لتقديم البطل في ActivityNet v1.3 مع دمج متعدد الوسائط ومتعدد النماذج وأحدث النتائج الرائدة في YouTube Birds و YouTube Cars.