HyperAIHyperAI
منذ شهر واحد

تدفق المشهد إلى خريطة الحركة: تمثيل جديد للاعتراف بالحركة باستخدام شبكات العصب الاصطناعية التلافيفية مع بيانات RGB-D

Pichao Wang; Wanqing Li; Zhimin Gao; Yuyao Zhang; Chang Tang; Philip Ogunbona
تدفق المشهد إلى خريطة الحركة: تمثيل جديد للاعتراف بالحركة باستخدام شبكات العصب الاصطناعية التلافيفية مع بيانات RGB-D
الملخص

يصف تدفق المشهد حركة الأجسام ثلاثية الأبعاد في العالم الحقيقي ويمكن أن يكون أساسًا جيدًا لميزة لتمييز الإجراءات ثلاثية الأبعاد. ومع ذلك، لم يتم دراسة استخدامه في تمييز الإجراءات، خاصة في سياق الشبكات العصبية التلافيفية (ConvNets) سابقًا. في هذا البحث، نقترح استخراج واستخدام تدفق المشهد لتمييز الإجراءات من بيانات RGB-D. لقد اعتبرت الأعمال السابقة موديلات العمق والRGB قنوات منفصلة واستخرجت الميزات للدمج لاحقًا. نحن نتبع نهجًا مختلفًا ونعتبر الموديلات ككيان واحد، مما يسمح باستخراج الميزات لتمييز الإجراءات من البداية.يتناول البحث إجابتين أساسيتين حول استخدام تدفق المشهد لتمييز الإجراءات: كيف يمكن تنظيم متجهات تدفق المشهد وكيف يمكن تمثيل الديناميكيات طويلة الأمد للمواد المصورة بناءً على تدفق المشهد. من أجل حساب تدفق المشهد بشكل صحيح على المجموعات المتاحة من البيانات، نقترح طريقة تعديل ذاتي فعالة لتوفيق بيانات RGB والعمق مكانيًا دون الحاجة لمعرفة معلمات الكاميرا. بناءً على متجهات تدفق المشهد، نقترح تمثيلًا جديدًا يُعرف بـ خريطة تدفق المشهد إلى الإجراء (Scene Flow to Action Map - SFAM)، والذي يصف عدة ديناميكيات زمانية-مكانية طويلة الأمد لتمييز الإجراءات.نتبنى نواة تحويل القنوات لتحويل متجهات تدفق المشهد إلى فضاء ألوان أمثل مشابه للـ RGB. هذه التحويلة تستفيد بشكل أفضل من النماذج التي تم تدريبها على ImageNet. تشير النتائج التجريبية إلى أن هذا التمثيل الجديد يمكن أن يتخطى أداء الطرق الرائدة في مجالها على كل من مجموعة بيانات عامة كبيرة.(ملاحظة: "ImageNet" هو اسم مشروع معروف في مجال المعالجة البصرية للآلة ولا يحتاج إلى ترجمة.)

تدفق المشهد إلى خريطة الحركة: تمثيل جديد للاعتراف بالحركة باستخدام شبكات العصب الاصطناعية التلافيفية مع بيانات RGB-D | أحدث الأوراق البحثية | HyperAI