Command Palette
Search for a command to run...
تمييز الحركات باستخدام وصفات عميقة متعددة الطبقات مجمعة حسب المسارات
تمييز الحركات باستخدام وصفات عميقة متعددة الطبقات مجمعة حسب المسارات
Wang Limin Qiao Yu Tang Xiaoou
الملخص
تُعد السمات البصرية ذات أهمية حاسمة لفهم الأفعال البشرية في الفيديوهات. تقدم هذه الورقة تمثيلًا جديدًا للفيديو يُسمى "المُحدد العمقِي المُجمّع حسب المسار" (TDD)، والذي يجمع بين مزايا السمات المُصممة يدويًا والسمات المستخلصة عبر التعلم العميق. وبشكل محدد، نستخدم الهياكل العميقة لاستخلاص خرائط مميزة للسمات التلافيفية، ثم نُطبّق عملية تجميع مُحددة بالمسار (trajectory-constrained pooling) لدمج هذه السمات التلافيفية في وصفات فعّالة. ولتعزيز مرونة وثبات مُحددات TDD، نصمم طريقتين لتطبيع خرائط السمات التلافيفية، وهما: التطبيع الفراغي الزمني (spatiotemporal normalization) والتطبيع القناتي (channel normalization). تكمن مزايا هذه السمات في (أ) أن مُحددات TDD تُتعلم تلقائيًا، وتمتلك قدرة تمييزية عالية مقارنة بالسمات المُصممة يدويًا؛ (ب) أن مُحددات TDD تأخذ بعين الاعتبار الخصائص الجوهرية للبعد الزمني، وتُطبّق استراتيجيات العينة والجمع المُحددة بالمسار لدمج السمات المستخلصة عبر التعلم العميق. أجرينا تجارب على مجموعتين صعبتين من البيانات: HMDB51 وUCF101. أظهرت النتائج التجريبية أن مُحددات TDD تتفوّق على السمات السابقة المُصممة يدويًا والسمات المستخلصة عبر التعلم العميق. كما حققنا أداءً متفوّقًا مقارنة بأفضل الأساليب الحالية على هاتين المجموعتين (65.9% على HMDB51، و91.5% على UCF101).