PERF-Net: شبكة RGB-Flow مُزوّدة بالوضعية

في السنوات الأخيرة، أظهرت العديد من الدراسات في مجال التعرف على الحركات في الفيديو أن النماذج ذات التدفق المزدوج (التي تدمج تدفقي الصورة الفضائية والزمنية) ضرورية لتحقيق الأداء المتفوق في مستوى الحد الأقصى. في هذه الورقة، نُظهر فوائد إدراج تدفق إضافي مبني على وضعية الإنسان المستخرجة من كل إطار — وبشكل محدد، من خلال عرض وضعية الإنسان على الإطارات الملونة (RGB) الأصلية. قد يبدو هذا التدفق الإضافي في البداية تكرارًا، بالنظر إلى أن وضعية الإنسان تُحدد بالكامل من قيم بكسلات RGB — ولكننا نُظهر (ربما بشكل مفاجئ) أن هذه الإضافة البسيطة والمُتعددة الاستخدامات يمكن أن تُقدِّم مكاسب مكملة. وباستناد إلى هذه الملاحظة، نقترح نموذجًا جديدًا يُسمَّى PERF-Net (بمعنى: الشبكة المُعزَّزة بالوضعية RGB-Flow)، والذي يدمج هذا التدفق الجديد مع التدفقيين القياسيين (RGB والتدفق البصري) باستخدام تقنيات التجميع (distillation)، ونُظهر أن نموذجنا يتفوق على الأداء المتفوق في عدد من مجموعات بيانات التعرف على الحركات البشرية بشكل كبير، دون الحاجة إلى حساب التدفق أو الوضعية صراحةً أثناء عملية الاستنتاج (inference). كما أن التدفق المُقترح للوضعية يُشكِّل جزءًا من الحل الفائز في مسابقة ActivityNet Kinetics Challenge 2020.