التعرف على الحركات باستخدام الوصفيات العميقة المجمعة بالمسار

الميزات البصرية لها أهمية حيوية في فهم الأفعال البشرية في مقاطع الفيديو. تقدم هذه الورقة تمثيلًا جديدًا للفيديو يُعرف باسم موصِّف المجمع للمسارات العميق-التشويهي (TDD)، والذي يتمتع بمزايا كل من الميزات المصممة يدويًا والميزات المستخلصة بواسطة التعلم العميق. بشكل خاص، نستخدم الهياكل العميقة لتعلم الخرائط التمييزية للميزات التشوية، ونقوم بعمليات تجميع مقيدة بالمسارات لتجميع هذه الميزات التشوية إلى وصفاء فعالة. لتعزيز متانة TDDs، صممنا طريقتين للتطبيع لتحويل خرائط الميزات التشوية، وهما التطبيع الزماني-المكاني والتطبيع القنواتي. تنبع مزايا مميزاتنا من (i) أن TDDs يتم تعلمها تلقائيًا وتتمتع بقدرة تمييز عالية مقارنة بالمميزات المصممة يدويًا؛ (ii) أن TDDs تأخذ في الاعتبار الخصائص الأساسية للبعد الزمني وتقدم استراتيجيات التجميع والتوزيع المقيدة بالمسارات لتجميع المميزات المستخلصة بواسطة التعلم العميق. أجرينا التجارب على قاعدتي بيانات صعبتين: HMDB51 وUCF101. أظهرت نتائج التجارب أن TDDs تتفوق على المميزات المصممة يدويًا والمميزات المستخلصة بواسطة التعلم العميق السابقة. كما حققت طريquetنا أداءً أفضل من الحالة المتقدمة في هذا المجال على هاتين قاعدتي البيانات (65.9٪ على HMDB51 و91.5٪ على UCF101).