SCP: التعلم الناعم الشرطي للملصقات في التعرف على الإجراءات في مقاطع الفيديو الجوية

نقدّم نهجًا جديدًا للتعلم يُسمّى التعلّم الناعم بالتحفيز الشرطي (SCP)، والذي يستفيد من المزايا المميزة لتقنية التحفيز في التعرف على الحركات في مقاطع الفيديو الجوية. تم تصميم هذا النهج لتوقع الحركة الخاصة بكل وكيل من خلال مساعدة النماذج على التركيز على الوصف أو التعليمات المرتبطة بالحركات الموجودة في مقاطع الفيديو المدخلة، وذلك في سياق الرؤية الجوية أو الروبوتية. يدعم نموذجنا مجموعة متنوعة من التحفيزات، بما في ذلك التحفيزات القابلة للتعلم، والمعلومات البصرية المساعدة، والنموذج البصري الكبير، بهدف تحسين أداء التعرف. نقدّم طريقة تحفيز شرطي ناعمة تتعلم توليد التحفيزات بشكل ديناميكي من مجموعة من خبراء التحفيز بناءً على مدخلات الفيديو المختلفة. وبفضل مشاركة نفس الهدف مع المهمة، يمكن لنموذجنا SCP تحسين التحفيزات التي توجه توقعات النموذج، مع التعلّم الصريح لمعرفة مُشتركة عبر جميع المدخلات (مجموعة خبراء التحفيز) ومعرفة مُخصصة لكل مدخل (مبنية على البيانات). في التطبيق العملي، لاحظنا تحسّنًا في الدقة يتراوح بين 3.17% و10.2% على مجموعات بيانات مقاطع الفيديو الجوية (Okutama، NECDrone)، والتي تتضمّن مشاهدًا تتضمن حركات لوكيل واحد أو أكثر. كما قمنا بتقييم منهجنا على مقاطع فيديو من كاميرات أرضية للتحقق من فعاليته و generalize، وحققنا تحسّنًا في الدقة يتراوح بين 1.0% و3.6% على مجموعة بيانات SSV2. وأخيرًا، قمنا بدمج منهجنا داخل نظام ROS2.