
أصبحت الكمية المتزايدة من المهام العملية المختلفة في مشكلة فهم الفيديو تُشكّل تحديًا كبيرًا يهدف إلى تصميم حل شامل، ينبغي أن يكون متاحًا للعامة وملائمًا لاستدلال الحافة المُتطلِّب. في هذا البحث، نركّز على تصميم معمارية شبكة وPipeline تدريبية لمعالجة التحديات المذكورة. تعتمد معماريةنا على أفضل الميزات من الأنظمة السابقة، وتوفر القدرة على النجاح ليس فقط في مهام التعرف على الحركات القائمة على المظهر، بل أيضًا في المشكلات القائمة على الحركة. علاوةً على ذلك، تم صياغة مشكلة الضوضاء في العلامات (label noise) وتم اقتراح إطار عمل اختيار القطع التكيفي (Adaptive Clip Selection - ACS) للتعامل معها. وبشكل متكامل، يجعل هذا الإطار الحل الشامل للتعرف على الحركات المعروف باسم LIGAR. كما قمنا بتقديم تحليل واسع على مجموعات بيانات عامة وبيانات الحركات (gestures) لإظهار التوازن الممتاز بين الأداء والدقة مقارنةً بالحلول الرائدة في مجالها. يمكن الوصول إلى رمز التدريب عبر: https://github.com/openvinotoolkit/training_extensions. ولضمان الاستدلال الفعّال المُوجّه نحو الحافة، يمكن تصدير جميع النماذج المدربة إلى تنسيق OpenVINO.