FAR: التعرف على الفيديو الجوي باستخدام التحويل التوافقي

نقدم خوارزمية تُسمى التعرف على النشاط باستخدام التحويل التوافقي (FAR) لتحليل الأنشطة في مقاطع الفيديو التي تُسجّلها الطائرات المُسيرة (UAV). تعتمد صيغتنا على طريقة جديدة لفصل الكائنات التوافقيّة (Fourier object disentanglement) تُميّز تلقائيًا الوكيل البشري (الذي يكون عادةً صغيرًا نسبيًا) عن الخلفية. تعمل تقنية الفصل هذه في مجال الترددات لتمثيل مدى التغير الزمني للبكسلات المكانية، وتكشف عن خصائص التحويل التوافقي (ال.Convolution-Multiplication) لتحويل هذا التمثيل إلى الميزات المتشابكة بين الكائن والخلفية التي تُستخلص من الشبكة العصبية. ولإدماج المعلومات السياقية والاعتماديات المكانية-الزمنية طويلة المدى، نقدّم خوارزمية انتباه توافقيّة جديدة (Fourier Attention)، التي تقلّد فوائد الانتباه الذاتي (self-attention) من خلال نمذجة الجداء الخارجي الموزون في مجال الترددات. وتتميز صيغة الانتباه التوافقي بحاجتها إلى حسابات أقل بكثير مقارنةً بالانتباه الذاتي. وقد قُمنا بتقييم منهجنا على عدة مجموعات بيانات للطائرات المُسيرة، تشمل: UAV Human RGB، UAV Human Night، Drone Action، وNEC Drone. وأظهرت النتائج تحسّنًا نسبيًا في الدقة عند المرتبة الأولى يتراوح بين 8.02% إلى 38.69%، مع تسريع يصل إلى ثلاث مرات مقارنةً بالطرق السابقة.